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内 容 简 介 


Apache Kylin 是 一 个 开源 的 分 布 式 分 析 引 擎 ， 提 供 Hadoop 之 上 的 SQL 查询 接口 及 多 维 分 析 СОГАР) 
能 力 以 支持 超大 规模 数据 ， 最 初 由 eBay 公司 开发 并 贡献 至 开源 社区 。 它 能 在 亚 秒 内 查询 巨大 的 Hive Ж. 

本 书 分 为 21 章 ， 详 细 讲 解 Apache Kylin 概念 、 安 装 、 配置、 部 署 ， 让 读者 对 Apache Kylin 构建 大 数据 
分 析 平台 有 一 个 感性 认识 。 同 时 ， 本 书 从 应 用 角度 ， 结 合 Dome 和 实例 介绍 了 用 于 多 维 分 析 的 Cube 算法 的 
创建 、 配 置 与 优化 。 最 后 还 介绍 了 Kyligence 公司 发 布 КАР 大 数据 分 析 平 台 ， 对 读者 有 极 大 的 参考 价值 。 

本 书 适 合 大 数据 技术 初学 者 、 大 数据 分 析 人 员 、 大 数据 架构 师 等 ， 也 适合 用 于 高 等 院 校 和 培训 学 校 相 关 
专业 师 生 教学 参考 。 
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推荐 序 
F 

Apache Kylin 将 传统 的 数据 仓库 及 商务 智能 分 析 能 力 带 入 到 了 大 数据 时 代 ， 作 为 新 兴 

的 技术 已 经 被 广大 用 户 所 使 用 。 作 为 创始 作者 ， 我 非常 欣喜 能 看 到 关于 Apache Kylin 相关 

书籍 的 出 版 ， 这 无 疑 对 中 国 用 户 更 好 地 使 用 Kylin， 解 决 实际 的 大 数据 分 析 架 构 及 业务 问 

题 有 很 大 帮助 。 
ШИ 
Kyligence 联合 创始 人 兼 CEO，Apache Kylin 项 目 管理 委员 会 主席 (PMC Chair) 


伴随 着 大 数据 发 展 的 三 条 主线 是 大 数据 技术 、 大 数据 思维 和 大 数据 实践 。 

因为 RDBMS 很 难处 理 单 表 10 亿 行 数据 ， 所 以 大 数据 技术 应 需 而 生 。 大 数据 技术 从 最 初 
的 解决 海量 数据 的 快速 存储 和 读 取 , 到 今天 的 海量 数据 的 OLAP, 当中 衍生 出 众多 的 技术 产品 ， 
Apache Kylin 就 是 其 中 的 一 个 优秀 产品 ， 目 标 是 解决 大 数据 范畴 中 的 OLAP。 

第 二 条 主线 是 大 数据 思维 。 数 据 处 理 的 最 近 几 十 年 都 被 RDBMS 的 思想 所 束缚 ， 小 表 、 
多 表 、 表 的 连接 、 过 分 注重 匈 余 性 的 坏处 ,等 等 ， 这些 都 限制 了 海量 数据 上 的 处 理 与 分 析 。 大 
数据 技术 出 来 之 后 ， 随 之 而 来 的 大 数据 思路 ,给 我 们 带 来 了 海量 数据 处 理 的 新 思维 。 这 个 新 思 
维 的 核心 就 是 突破 表 的 概念 ， 而 采用 面向 对 象 的 数据 模型 在 数据 层 上 实现 。Apache Kylin 的 
Cube 模型 就 是 在 逐步 体现 大 数据 的 思维 。 

最 后 一 条 主线 是 大 数据 实践 。 大 数据 实践 分 为 数据 梳理 、 数据 建 模 、 数 据 采 集 、 数据 管控 、 
数据 服务 、 数 据 可 视 化 和 数据 分 析 。 这 是 一 环 套 一 环 的 步 又， 不 能 跳 过 。Apache Kylin 作为 数 
据 分 析 环 节 的 技术 产品 ， 一 定 要 同 数据 管理 的 优秀 产品 相 结合 ， 才 能 充分 发 挥 出 分 析 的 功效 。 

蒋 守 壮 是 业界 知名 的 Apache Kylin 专家 。《 基 于 Apache Kylin 构建 大 数据 分 析 平 台 》 一 
书 浅 显 易 懂 、 实 操 性 强 ， 是 目前 Apache Kylin 界 不 可 多 得 的 技术 资料 ， 值 得 细 读 和 研究 。 

杨 正 洪 
武汉 市 云 升 科技 发 展 有 限 公司 董事 长 


Apache Kylin 是 一 个 由 国人 主导 开发 并 在 大 数据 领域 真正 进入 全 球 主流 应 用 的 开源 项 目 。 
作为 国人 软件 开发 的 骄傲 之 作 ， 市 面 上 却 缺 少 一 本 系统 性 介绍 该 项 目的 书籍 。 

万 达 科 技 集团 大 数据 中 心 蒋 守 壮 同学 在 项 目 诞生 之 初 就 一 直 跟 踪 Kylin 的 进展 , 深入 研究 
项 目的 技术 原理 , 并 将 其 运用 在 许多 实际 项 目 中 。 无 论 您 是 大 数据 技术 爱好 者 ， 抑 或 您 正在 考 
虑 引入 Kylin 这 样 杰 出 的 大 数据 处 理工 具 ， 该 书 都 将 是 您 很 好 的 参考 指南 ! 








36р 
万 达 网 络 科技 集团 大 数据 中 心 副 总 经 理 ，《Spark 高 级 数据 分 析 》 中 文 版 译 者 


基于 Apache Kylin 构建 大 数据 分 析 平 台 


Apache Kylin 是 基于 MOLAP 的 实时 大 数据 引擎 ， 与 Hadoop 生态 系统 结合 更 加 紧密 ， 先 
天 的 优势 注定 了 其 支持 更 大 的 数据 规模 、 更 好 的 扩展 性 , 独 有 的 中 国 血 统 较 其 他 开源 软件 更 具 
本 地 化 优势 ， 更 符合 中 国 国情 。 本 书包 含 了 守 壮 多 年 的 实践 经 验 ， 系 统 全 面 地 介绍 了 Apache 
Kylin 技术 ， 值 得 推荐 。 





ен 
数据 架构 师 ，IT 脱口 秀 〈 清 风 那 个 吹 ) 创始 人 


Apache Kylin 是 基于 大 数据 技术 的 一 类 OLAP 实现 , 其 根据 OLAP 原理 、 利 用 MapReduce 
框架 构建 CUBE, 并 将 预计 算 结果 存储 在 HBase 中 , 实现 多 维 分 析 和 查询 的 秒 级 响应 。Apache 
Kylin 虽 属 于 MOLAP 范畴 , 但 还 是 有 别 于 传统 的 MOLAP, 它 充分 利用 了 Hadoop 分 布 式 计算 
的 精髓 ， 是 分 布 式 OLAP (DOLAP: Distributed OLAP) 的 一 个 具体 实现 ， 在 ТВ, РВ 级 数据 
集 上 体现 出 卓越 的 性 能 表现 ， 自 开源 以 来 就 备 受 各 界 关 注 。 

作为 一 位 技术 达 人 ， 蒋 守 壮 依托 自身 深厚 的 技术 功底 ， 结 合 实际 工作 对 Куп 做 了 许多 研 
究 工 作 。 从 各 种 部 署 环 境 的 搭建 、 实 际 工作 案例 开发 测试 到 各 类 问题 的 分 析 及 解决 ， 作 者 深入 
分 析 了 Kylin 的 源 代 码 ， 也 给 Kylin 社区 反馈 了 很 多 缺陷 ， 被 Kylin 社区 确认 并 在 新 的 版 本 中 
加 以 完善 。《 基 于 Apache Kylin 构建 大 数据 分 析 平台 》 这 本 书 即 是 蒋 守 壮 对 自己 研究 工作 的 
总 结 和 升华 ， 是 当前 第 一 本 系统 介绍 Kylin 的 实用 书籍 。 

项 同 德 
平安 科技 (深圳 ) 有 限 公 司 高 级 经 理 


目前 在 企业 级 市 场 上 主流 的 BI 产品 有 Oracle 的 BIEE、IBM 的 Cognos, SAP 的 ВО 等 ， 
这 些 产 品 主要 是 基于 传统 的 关系 型 数据 进行 报表 开发 和 数据 分 析 , 虽然 可 以 通过 提高 服务 器 性 
能 来 提升 数据 处 理 的 能 力 ， 但 受 限于 其 自身 的 架构 ， 在 处 理 大 数据 (TB 级 及 以 上 ) 上 就 显得 
缓慢 ， 而 Kylin 是 一 款 专 为 大 数据 而 生 的 开源 产品 。 相 对 于 传统 大 厂商 主导 的 BI 产品 ，Kylin 
是 一 个 开源 的 分 布 式 分 析 引 擎 ， 提 供 Hadoop 之 上 的 SQL 查询 接口 及 多 维 分 析 (OLAP) 能 力 
以 支持 超大 规模 数据 ， 其 最 初 由 eBay 公司 开发 并 贡献 至 开源 社区 ， 它 能 在 亚 秒 内 查询 巨大 的 
Hive 表 ， 并 且 在 不 断 地 完善 和 进化 。 
Kylin 作为 Apache 项 级 项 目 ， 在 社区 备 受 推崇 ， 但 一 直 缺 少 一 本 实用 、 可 操作 的 技术 书 
籍 让 普通 的 开发 人 员 将 其 部 署 实施 ,应 用 于 企业 的 发 展 ,产生 经 济 价值 。 蒋 守 壮 的 这 本 书 系统 
而 全 面 地 介绍 了 Kylin 的 架构 、 搭 建 及 应 用 ， 能 让 有 一 定 技术 功底 的 人 员 ， 快 速 实施 部 署 ， 对 
于 目前 苦于 大 数据 处 理 的 人 员 来 讲 ， 无 疑 是 久 旱 逢 甘霖 。 
蒋 守 壮 一 直 专 注 于 大 数据 的 研究 和 应 用 ,技术 出 众 , 尤其 是 擅长 解决 各 类 疑难 问题 。 这 本 
书 融合 了 作者 多 年 的 技术 积累 和 实战 经 验 ， 相 信 对 您 ， 无 论 是 学 习 还 是 实战 都 是 大 有 益处 。 
万 文兵 
万 达 网 络 科技 集 团 有 限 公司 大 数据 资深 项 目 经 理 
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В 2011 年 下 半年 开始 ， 我 就 一 直 关 注 Apache 开源 社区 ， 侧 重点 放 在 大 数据 方面 的 成 熟 
框架 和 产品 。 在 这 期 间 ， 陆 续 研 究 过 Hadoop、Hive、HBase、Mahout、Kafka、Flume、Storm， 
以 及 近 两 年 很 火 的 Spark 和 Flink 等 ， 和 很 多 从 事 大 数据 的 朋友 一 样 ， 经 历 过 无 数 的 夜晚 ， 对 
者 电脑 屏幕 逐 行 研究 这 些 源 代码 ， 同 时 也 看 到 无 数 的 开源 爱好 者 和 技术 专家 加 入 Hadoop 开源 
社区 ， 贡献 自己 的 力量 ， 日 复 一 日 ， 乐 此 不 疲 。 

谈 起 大 数据 ， 不 得 不 提 Hadoop， 如 今 其 早已 发 展 成 为 了 大 数据 处 理 的 事实 标准 。Hadoop 
诞生 于 2005 年 ， 其 受到 Google 的 两 篇 论文 (GFS 和 MapReduce) 的 启发 。 起 初 ，Hadoop 只 
是 用 来 支撑 Nutch 搜索 引擎 的 项 目 ， 从 2006 年 开始 ，Hadoop 脱离 了 Nutch， 成 为 了 Apache 
的 顶级 项 目 ， 无 论 是 在 学 术 界 还 是 工业 界 都 得 到 了 迅猛 的 发 展 。 

如 今 已 是 2016 年 了 , Hadoop 十 周岁 了 , 这 十 年 期 间 围绕 其 核心 组 件 (HDFS、MapReduce、 
Yam) 陆续 出 现 了 一 批 工具 ， 用 来 丰富 Hadoop 生态 圈 ， 解 决 大 数据 各 方面 的 问题 ， 这 其 中 就 
包括 Apache Kylin 。 

ApacheKylin СЁ) 是 由 eBay 研发 并 贡献 给 开源 社区 的 Hadoop 上 的 分 布 式 大 规模 联机 
分 析 СОГАР) 平台 , 它 提 供 Hadoop 之 上 的 SQL 查询 接口 及 多 维 分 析 能 力 以 支持 大 规模 数据 ， 
能 够 处 理 TB 乃至 PB 级 别 的 分 析 任 务 ， 能 够 在 亚 秒 级 查询 巨大 的 Hive 表 ， 并 支持 高 并 发 。 
Apache Kylin F 2014 年 10 月 开源 ， 并 于 当年 11 月 成 为 Apache 孵化 器 项 目 ， 是 eBay 第 一 个 
贡献 给 Apache 软件 基金 会 的 项 目 ， 也 是 第 一 个 由 中 国 团 队 完整 贡献 到 Apache 的 项 目 ， 在 这 
里 对 Apache Kylin 的 中 国 团队 表示 感谢 ， 感 谢 贡 献 如 此 出 色 的 大 数据 分 析 平台 。 

从 去 年 开始 接触 Apache Kylin， 我 感觉 很 亲切 ， 也 很 惊喜 。 当 前 研究 的 版 本 为 0.7.1， 也 
就 是 Kylin 加 入 Apache 旷 化 器 项 目 后 的 第 一 个 Apache 发 行 版 本 ， 虽 然 当时 的 Kylin 存在 一 些 
问题 , 但 是 其 基于 Hadoop 设计 的 框架 还 是 很 有 创意 和 特色 的 。 经 过 一 年 多 的 发 展 , 截至 目前 ， 
Apache Kylin 的 版 本 已 经 发 展 到 1.5.3， 并 且 从 1.5 版 本 开始 ，Apache Kylin 进行 了 重 构 ， 支 持 
可 扩展 架构 ,支持 更 多 的 数据 源 、 构 建 引擎 和 存储 引擎 ， 构 建 算法 不 断 优化 ， 支 持 与 更 多 的 可 
视 化 工具 集成 等 。 

如 今 ，Apache Kylin 已 被 应 用 在 eBay、Exponential、 京 东 、 美 团 、 明 略 数 据 、 网 易 及 其 他 
公司 。 越 来 越 多 的 大 数据 团队 开始 选择 Apache Kylin 作为 公司 大 数据 分 析 平 台 的 组 成 部 分 ， 
满足 其 海量 数据 的 多 维 指标 实时 查询 分 析 。 通 过 很 多 社区 的 交流 分 享 ， 我 发 现 不 少 朋 友 对 








基于 Apache Kylin 构建 大 数据 分 析 平 台 


Apache Kylin 没有 一 个 整体 的 认识 ， 在 使 用 过 程 中 出 现 各 种 各 样 的 问题 ， 打击 自 信心 ， 他 们 和 急 
切 希 望 能 有 一 本 全 面 介 绍 Apache Kylin 的 书籍 。 因 为 我 经 常 在 博客 和 社区 分 享 Apache Kylin 
实战 方面 的 一 些 经 验 ， 所 以 很 多 朋友 鼓励 我 能 够 写 一 本 比较 全 面 介 绍 Apache Kylin 的 书籍 ， 

帮助 更 多 的 爱好 者 更 好 地 加 入 Apache Kylin 的 社区 ， 并 在 生产 环境 中 进行 实践 。 刚 开始 比较 
犹 驳 ， 毕 竞 写 书 需 要 花费 大 量 的 时 间 和 精力 ， 而 且 要 对 读者 负责 ， 容 不 得 半点 马虎 。 后 来 有 社 
区 的 几 个 朋友 给 我 打 电 话 劝 说 , 以 及 清华 大 学 出 版 社 的 夏 航 疹 编辑 一 再 鼓励 ,还 有 家 人 的 支持 ， 
我 就 下 定 决心 写 这 本 书 ， 目 的 只 有 一 个 ， 就 是 希望 读者 能 够 通过 这 本 书 ， 对 Apache Kylin 有 

-个 完整 的 认识 ， 掌 握 各 方面 的 技能 ， 并 最 终 应 用 在 自己 公司 的 生产 环境 中 。 




















本 书 内 容 


这 是 一 本 全 面 介绍 Apache Kylin 的 书籍 , 包括 环境 搭建 、 案 例 实 战 演示 、 源 码 分 析 、Cube 
优化 等 ， 此 外 还 会 涉及 数据 仓库 、 数 据 模型 、OLAP、 数 据 立方 体 等 方面 的 知识 。 通 过 本 书 系 
统 性 学 习 和 实战 操作 ， 朋 友 们 将 能 够 达到 基于 Apache Kylin 搭建 企业 级 大 数据 分 析 平 台 ， 并 
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第 1 章 
< Apache Kylin 前 世 今 生 > 


Apache Kylin 的 背景 


在 现在 的 大 数据 时 代 ，Hadoop 已 经 成 为 大 数据 事实 上 的 标准 规范 ， 一 大 批 工具 陆 陆续 续 转 
绕 Hadoop 平台 来 构建 ， 用 来 解决 不 同 场景 下 的 需求 。 

比如 Hive 是 基于 Hadoop 的 一 个 用 来 做 企业 数据 仓库 的 工具 ， 可 以 将 存储 在 HDFS 分 布 式 
文件 系统 上 的 数据 文件 映射 为 一 张 数据 库 表 ， 并 提供 SQL 查询 功能 ，Hive 执行 引擎 可 以 将 SQL 
转换 为 MapReduce 任务 来 进行 运行 ， 非 常 适合 数据 仓库 的 数据 分 析 。 

再 比如 HBase 是 基于 Hadoop， 实 现 高 可 用 性 、 高 性 能 、 面 向 列 、 可 伸缩 的 分 布 式 存储 系 
统 ，Hadoop 架构 中 的 HDFS 为 HBase 提供 了 高 可 靠 性 的 底层 存储 支持 。 

但 是 缺少 一 个 基于 Hadoop 的 分 布 式 分 析 引 擎 ， 虽 然 目 前 存在 业务 分 析 工 具 ， 如 Tableau 
等 ， 但 是 它们 往往 存在 很 大 的 局 限 ， 比 如 难以 水 平 扩展 、 无 法 处 理 超大 规模 数据 ， 同 时 也 缺少 
Hadoop 的 支持 。 此 外 ，Hadoop 以 及 相关 大 数据 技术 的 出 现 提供 了 一 个 几 近 无 限 扩展 的 数据 平 
台 ， 在 相关 技术 的 支持 下 ， 各 个 应 用 的 数据 已 突破 了 传统 OLAP 所 能 支持 的 容量 上 界 。 每 天 千 
万 、 数 亿 条 的 数据 ， 提 供 若干 维度 的 分 析 模 型 ， 大 数据 OLAP 最 迫切 所 要 解决 的 问题 就 是 大 量 
实时 运算 导致 的 响应 时 间 迟 滞 。 

Apache Kylin CHX: Ж ) 的 出 现 ， 能 够 基于 Hadoop 很 好 地 解决 上 面 的 问题 。Apache 
Kylin 是 一 个 开源 的 分 布 式 存储 引擎 ， 最 初 由 eBay 开发 贡献 至 开源 社区 。 它 提供 Hadoop 之 上 的 
SQL 查询 接口 及 多 维 分 析 СОГАР) 能力 以 支持 大 规模 数据 ， 能 够 处 理 TB 乃至 PB 级 别 的 分 析 
任务 ， 能 够 在 亚 秒 级 查询 巨大 的 Hive 表 ， 并 支持 高 并 发 。 

















Apache Kylin 的 应 用 场景 


(1) 假如 你 的 数据 存在 于 Hadoop 的 HDFS 分 布 式 文件 系统 中 ， 并 且 你 使 用 Hive 来 基于 
HDFS 构建 数据 仓库 系统 ， 并 进行 数据 分 析 ， 但 是 数据 量 巨大 ， 比 如 PB 级 别 。 
(2) 同时 你 的 Hadoop 平台 也 使 用 HBase 来 进行 数据 存储 和 利用 HBase 的 行 键 实现 数据 的 
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快速 查询 等 应 用 。 
(3) 你 的 Hadoop 平台 的 数据 量 逐 日 素 增 。 
(4) 对 于 数据 分 析 的 维度 大 概 10 个 左右 。 


如 果 你 的 应 用 类 似 上 面 ， 那 么 非常 适合 采用 Apache Kylin 来 做 大 数据 量 的 多 维 数据 分 析 。 

Apache Kylin 的 核心 思想 是 利用 空间 换 时 间 ， 将 计算 好 的 多 维 数据 结果 存 入 HBase， 实 现 数 
据 的 快速 查询 。 同 时 ， 由 于 Apache Kylin 在 查询 方面 制定 了 多 种 灵活 的 策略 ， 进 一 步 提高 空间 
的 利用 率 ， 使 得 这 样 的 平衡 策略 在 应 用 中 值得 采用 。 


1.3 Apache Kylin 的 发 展 历程 


Apache Kylin F 2014 年 10 月 在 github 开源 ， 并 很 快 在 2014 年 11 月 加 入 Apache #0, 
2015 年 9 J], Apache Kylin 与 Spark, HBase, Kafka 等 并 列 荣 麻 InfoWorld 2015 年 Bossie 最 佳 
开源 大 数据 工具 奖 。 这 也 是 国人 项 目 第 一 次 获得 该 国际 大 奖 ， 于 2015 年 11 月 正式 毕业 ， 成 为 
Apache 顶级 项 目 ， 也 成 为 首 个 完全 由 中 国 团队 设计 开发 的 Apache 顶级 项 目 ， 如 图 1-1 所 示 。 
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Apache Kylin 在 大 数据 分 析 领 域 应 用 广泛 ， 获 得 了 快速 的 推广 。 国 内 外 一 线 的 互联 网 、 金 
融 、 电 信 等 公司 越 来 越 多 地 采用 Apache Kylin 作为 其 大 数据 分 析 平 台 。 
Apache Kylin 的 官网 为 http://kylin.apache.org， 如 图 1-2 тях. 
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于 2016 年 3 月 ，Apache Kylin 核心 开发 成 员 在 上 海 创 建 Kyligence 公司 ，Kyligence 是 一 家 
专注 于 大 数据 分 析 领 域 创新 的 数据 科技 公司 ， 致 力 于 为 用 户 提供 基于 Apache Kylin 的 智能 分 析 
平台 及 产品 ， 提 供 领先 的 企业 级 商业 分 析 解 决 方案 ， 以 使 用 户 在 超大 规模 数据 集 上 获取 极速 的 洞 
见 能 力 ， 驱 动 业务 增长 。Kyligence 也 是 首 家 在 国内 由 Apache 顶级 项 目 核心 贡献 者 团队 组 建 的 创 
业 公司 ， 公 司 将 致力 于 进一步 推动 Apache Kylin 开源 项 目的 发 展 和 演进 ， 提 供 基 于 Apache Kylin 
的 大 数据 分 析 产 品 和 服务 ， 拓 展 全 球 用 户 社区 ， 构 建 更 为 丰富 的 生态 系统 。 

公司 官网 为 http://kysligence.io， 如 图 1-3 所 示 。 


POWERED BY APACHE KYLIN 


领先 的 大 数据 智能 分 析 平 台 
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1-3 
为 了 获取 更 好 的 发 展 ，2016 年 4 月 ， 大 数据 公司 Kyligence 哇 智 科技 宣布 获得 了 数 百 万 美 
元 的 天 使 轮 投资 。 
Kyligence 于 2016 年 8 月 3 日 ， 在 北京 宣布 正式 发 布 其 企业 级 大 数据 智能 分 析 平 台 KAP 
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(Kyligence Analytics Platform) ， 该 平台 是 基于 Apache 软件 基金 会 项 级 项 目 Apache Kylin 实现 
的 、 为 可 伸缩 数据 集 提供 分 析 能 力 的 企业 级 大 数据 产品 ， 在 Apache Hadoop 上 为 百 亿 及 以 上 超大 
规模 数据 集 提供 亚 秒 级 标准 SQL 查询 能 力 。 这 是 由 Apache Kylin 核心 团队 组 建 的 创业 公司 发 布 
的 第 一 款 Apache Kylin 商业 产品 及 解决 方案 。 

KAP 突破 了 传统 商业 智能 产品 和 数据 分 析 工 具 的 架构 ， 使 用 户 在 超大 规模 数据 集 上 获得 极 
速 洞 见 能 力 。 助 力 传统 企业 和 互联 网 企业 的 分 析 师 ， 在 面 对 超 过 百 亿 甚至 千 亿 规模 的 数据 时 ， 能 
够 在 短 时 间 内 用 其 熟悉 的 数据 分 析 工 具 轻 松 、 快 速 地 在 海量 数据 中 获取 分 析 结 果 。KAP 支持 与 
企业 级 商业 智能 (BD 及 可 视 化 工具 的 无 颖 集成 ， 同 时 具备 自助 服务 、 可 扩展 架构 、 方 便 快 速 部 署 
等 特点 。 该 企业 级 产品 与 开源 Apache Kylin 完全 兼容 ， 用 户 可 以 无 颖 迁移 到 该 平台 上 ， 以 获得 
更 多 的 企业 级 特性 ， 包 括 更 快 的 性 能 、 用 户 管理 、 安 全 及 加 密 、 可 视 化 分 析 前 端 、 管 理 与 服务 自 
动 化 等 。 

同时 ，Kyligence 宣布 与 Hadoop 数据 管理 软件 与 服务 提供 商 Cloudera 达成 深度 战略 合作 ， 
Kyligence 成 为 经 Cloudera 官方 认证 提供 基于 Hadoop 的 数据 仓库 及 OLAP 产品 的 供应 商 ， 
Cloudera 同时 成 为 经 Kyligence 认证 的 大 数据 管理 及 分 析 平 台 合 作 伙 伴 。 双 方 将 携手 共 建 更 加 完 
善 的 大 数据 生态 圈 。 

最 后 ， 我 们 非常 感谢 Kyligence 联合 创始 人 兼 CEO 韩 卿 带领 中 国 团 队 给 我 们 带 来 Kylin 这 个 
非常 好 的 大 数据 分 析 平 台 ， 希 望 开源 社区 更 多 的 朋友 们 能 够 加 入 Kylin， 一 起 创造 Kylin 更 美好 
的 明天 。 
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进入 这 一 章 ， 我 们 将 从 各 方面 来 介绍 ApacheKylin， 让 读者 对 Apache Kylin 有 个 深入 的 理解 。 

好 了 ， 开 始 我 们 的 Apache Kylin 的 探索 旅途 吧 。 

首先 ， 为 了 方便 朋友 们 更 好 地 理解 Apache Kylin， 我 们 将 Apache Kylin 涉及 的 一 些 概念 普及 
下， 虽然 枯燥 ， 还 是 希望 朋友 们 能 熟悉 一 下 ， 相 信 对 掌握 Apache Kylin 一 定 有 帮助 。 


事实 表 和 维 表 


事实 表 是 用 来 记录 具体 事件 的 ， 包 含 了 每 个 事件 的 具体 要 素 ， 以 及 具体 发 生 的 事情 。 

维 表 则 是 对 事实 表 中 事件 的 要 素 的 描述 信息 。 

比如 ， 事 实 表 的 一 条 数据 中 可 能 会 包含 唯一 标记 符 〈 主 键 ) 、 时 间 、 地 点 、 人 物 和 事件 等 ， 
也 就 是 记录 了 整个 事件 的 信息 ， 但 是 对 地 点 和 人 物 等 只 是 用 关键 标记 号 来 表示 ， 比 如 一 串 数字 、 
字母 或 者 数字 字母 组 合 ， 而 这 些 关键 标 记 的 具体 含义 ， 我 们 可 以 从 维 表 中 获取 。 

基于 事实 表 和 维 表 就 可 以 构建 出 多 种 多 维 模型 ， 包 括 最 常见 的 星 型 模型 、 雪 花 型 模型 。 有 的 
公司 还 会 使 用 星座 模型 ， 这 个 模型 是 由 星 型 模型 扩展 而 来 的 ， 为 了 表示 多 个 事实 之 间 的 关系 ， 可 
以 共享 多 个 维度 ， 这 些 共享 维 对 每 个 拥有 它 的 事实 表 来 说 都 具有 相同 的 意义 。 





星 型 模型 和 雪花 型 模型 


这 里 我 们 只 对 星 型 模型 和 雪花 型 模型 进行 介绍 ， 对 星座 模型 不 做 介绍 ， 毕 况 用 得 太 少 。 


221 星 型 模型 


星 型 模型 是 一 种 多 维 的 数据 关系 ， 它 由 一 个 或 多 个 事实 表 (Fact Table) 和 一 组 维 表 
(Dimension Table) 组成， 所 有 维 表 都 直接 连接 到 “事实 表 ” 上 ， 整 个 图 就 像 星 星 一 样 。 每 个 维 
表 都 有 一 个 维 作为 主键 ， 所 有 这 些 维 的 主键 组 合成 事实 表 的 主键 。 
事实 表 的 非 主键 属性 〈 即 非 维度 ) 称 为 事实 (Fact) ， 它 们 一 般 都 是 数值 或 其 他 可 以 进行 计 
算 的 数据 ;而 维 大 都 是 文字 、 时 间 等 类 型 的 数据 ， 按 这 种 方式 组 织 好 数据 ， 我 们 就 可 以 按照 不 同 
的 维 〈 事 实 表 主 键 的 部 分 或 全 部 ) 来 对 这 些 事实 数据 进行 求 和 (summary) 、 求 平均 
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(average) 、 计 数 (count) 、 百 分 比 (percent) 的 聚集 计算 。 这 样 就 可 以 从 不 同 的 角度 通过 数 
字 来 分 析 业 务 主题 的 情况 。 
星 型 模型 是 一 种 非 正规 化 的 结构 ， 多 维 数据 集 的 每 一 个 维度 都 直接 与 事实 表 相 连接 ， 不 存在 
渐变 维度 ， 所 以 数据 有 一 定 的 元 余 ， 比 如 在 地 域 维度 表 中 ， 存 在 国家 A 省 B 的 城市 C 以 及 国家 
A 省 B 的 城市 D 两 条 记录 ， 那 么 国家 A 和 省 B 的 信息 分 别 存储 了 两 次 ， 即 存在 元 余 。 


222 ”雪花 型 模型 


当 有 一 个 或 多 个 维 表 没有 直接 连接 到 事实 表 上 ， 而 是 通过 其 他 维 表 连 接 到 事实 表 上 时 ， 这 个 
时 候 的 图 就 像 多 个 雪花 连接 在 一 起 ， 故 称 雪花 型 模型 。 

雪花 型 模型 是 对 星 型 模型 的 扩展 ， 它 对 星 型 模型 的 维 表 进 一 步 层次 化 ， 原 有 的 各 维 表 可 能 被 
扩展 为 小 的 事实 表 ， 形 成 一 些 局 部 的 “层次 ”区 域 ， 这 些 被 分 解 的 表 都 连接 到 主 维度 表 而 不 是 事 
实 表 。 比 如 ， 可 以 将 国家 地 域 维 表 分 解 为 国家 、 省 份 、 城 市 等 维 表 。 它 的 优点 是 : 通过 最 大 限度 
地 减少 数据 存储 量 以 及 联合 较 小 的 维 表 来 改善 查询 性 能 。 雪 花 型 结构 去 除了 数据 元 余 ， 但 是 在 进 
行事 实 表 和 维 表 之 问 的 连接 查询 时 ， 其 效率 就 比 星 型 模型 低 了 。 在 元 余 可 以 接受 的 前 提 下 ， 实 际 
运用 中 星 型 模型 使 用 更 多 ， 也 更 有 效率 。 


223 ” 星 型 模型 示例 


Apache Kylin 中 采用 的 模型 为 星 型 模型 ， 即 事实 表 与 多 张 维 表 进行 关联 。 
为 了 更 好 地 理解 ， 我 们 拿 一 张 经 典 的 商品 销售 事实 表 来 进行 阐述 星 型 模型 ， 如 图 2-1 所 示 为 
商品 销售 事实 表 和 一 组 维 表 。 
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这 是 一 个 简单 的 星 型 模型 的 示例 ， 由 一 张 商 品 销售 事实 表 以 及 五 张 维 表 组 成 。 
事实 表 里 面 主要 包含 两 方面 的 信息 : 维和 度量 。 维 的 具体 描述 信息 记录 在 维 表 ， 事 实 表 中 的 
维 属性 只 是 一 个 关联 到 维 表 的 键 ， 并 不 记录 具体 信息 ; 度量 一 般 都 会 记录 事件 的 相应 数值 ， 比 如 
这 里 的 产品 的 销售 数量 、 销 售 额 等 。 维 表 中 的 信息 一 般 是 可 以 分 层 的 ， 比 如 时 间 维 的 年 月 日 、 地 
域 维 的 省 市 县 等 ， 这 类 分 层 的 信息 就 是 为 了 满足 事实 表 中 的 度量 可 以 在 不 同 的 粒度 上 完成 聚合 ， 
比如 2016 年 商品 的 销售 额 ， 来 自 上 海 市 的 销售 额 等 。 

事实 表 里 面 主要 包含 两 方面 的 信息 : 维和 度量 ， 维 的 具体 描述 信息 记录 在 维 表 ， 事 实 表 中 的 
维 属性 只 是 一 个 关联 到 维 表 的 键 ， 并 不 记录 具体 信息 ; 度量 一 般 都 会 记录 事件 的 相应 数值 ， 比 如 
这 里 的 产品 的 购买 数量 、 实 付 金额 。 维 表 中 的 信息 一 般 是 可 以 分 层 的， 比如 时 间 维 的 年 月 日 、 地 
域 维 的 省 市 县 等 ， 这 类 分 层 的 信息 就 是 为 了 满足 事实 表 中 的 度量 可 以 在 不 同 的 粒度 上 完成 聚合 ， 
比如 2016 年 商品 的 销售 额 ， 来 自 上 海 市 的 销售 额 ，2016 年 来 自 上 海 的 销售 额 等 等 。 销 售 事实 表 
和 时 间 维 度 表 关 联 查询 如 图 2-2 所 示 。 











Sales Fact Table 

+-------------—- +---------- + 

| sale_amount | time id | 

е 和 + Time Dimension 

| 10086.88| 20160716 |---+ +--------- 1 + 

+-------------— 十 一 一 一 一 一 一 一 一 一 一 十 l | time_id | timestamp | 
| +--------- +--------------------- + 
+---->120160716 | 2016-07-16 12:00:00 | 

+--------- + 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
图 2-2 


2.3 одр 


OLAP (On-line Analytical Processing， 联 机 分 析 处 理 ) ， 是 在 基于 数据 仓库 多 维 模型 的 基础 
上 实现 的 面向 分 析 的 各 类 操作 的 集合 ， 与 之 对 应 的 是 OLTP (On-line Transaction Processing， 联 
机 事务 处 理 ) ， 这 里 不 对 ОР 介绍 ， 相 信 做 过 传统 数据 库 ， 比 如 Oracle, MySQL, 
PostgreSQL 等 的 读者 应 该 都 比较 熟悉 。 


2.3.1 OLAP 分 类 
我 们 先 来 看 一 下 OLAP 系统 按照 其 存储 器 的 数据 存储 格式 分 类 : 


(1) ROLAP (Relational OLAP) ， 关 系 OLAP 
ROLAP 将 分 析 用 的 多 维 数据 存储 在 关系 数据 库 中 ， 并 根据 应 用 的 需要 ， 有 选择 地 定义 一 批 
实 视图 作为 表 ， 它 也 存储 在 关系 数据 库 中 。 不 必要 将 每 一 个 SQL 查询 都 作为 实 视图 保存 ， 只 定 
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义 那些 应 用 频率 比较 高 、 计 算 工作 量 比较 大 的 查询 作为 实 视图 。 对 每 个 针对 OLAP 服务 器 的 查 
询 ， 优 先 利用 已 经 计算 好 的 实 视图 来 生成 查询 结果 以 提高 查询 效率 。 同 时 ， 用 作 ROLAP 存储 器 
的 RDBMS 也 针对 OLAP 作 相 应 的 优化 ， 比 如 并 行 存 储 、 并 行 查询 、 并 行 数据 管理 、 基 于 成 本 
的 查询 优化 、 位 图 索引 、SQL 的 OLAP 扩展 〈cube、rollup) 等 等 。 


(2) MOLAP (Multidimension OLAP) ， 多 维 OLAP 

MOLAP 将 OLAP 分 析 所 用 到 的 多 维 数据 物理 上 存储 为 多 维 数组 的 形式 ， 形 成 “立方 体 ” 的 
结构 。 维 的 属性 值 被 映射 成 多 维 数组 的 下 标 值 或 下 标的 范围 ， 而 汇总 数据 作为 多 维 数组 的 值 存储 
在 数组 的 单元 中 。 由 于 MOLAP 采用 了 新 的 存储 结构 ， 从 物理 层 实现 起 ， 因 此 又 称 为 物理 OLAP 
(PhysicalOLAP) ; 而 ROLAP 主要 通过 一 些 软件 工具 或 中 间 软 件 实现 ， 物 理 层 仍 采用 关系 数据 
库 的 存储 结构 ， 因 此 称 为 虚拟 OLAP (VirtualOLAP) 。 


(3) HOLAP (Hybrid OLAP) ,混合 型 OLAP 

HOLAP 表示 基于 混合 数据 组 织 的 OLAP 实现 ， 如 低层 是 关系 型 的 ， 高 层 是 多 维和 矩阵 型 的 。 
这 种 方式 具有 更 好 的 灵活 性 。 特 点 是 将 明细 数据 保留 在 关系 型 数据 库 的 事实 表 中 ， 但 是 聚合 后 的 
数据 保存 在 Cube 中 ， 聚 合 时 需要 比 ROLAP 更 多 的 时 间 ， 查 询 效率 比 ROLAP 高 ， 但 低 于 
MOLAP。 


23.2 OLAP 的 基本 操作 


OLAP 的 操作 是 以 查询 ， 即 数据 库 中 常见 的 SELECT 操作 为 主 ， 但 是 查询 可 以 很 复杂 ， 比 
如 基于 关系 数据 库 的 查询 可 以 多 表 关 联 ， 可 以 使 用 COUNT. SUM. AVG 等 聚合 函数 。OLAP 
正 是 基于 多 维 模型 定义 了 一 些 常 见 的 面向 分 析 的 操作 类 型 而 使 这 些 操作 显得 更 加 直观 。 

OLAP 的 多 维 分 析 操 作 包 括 : 钻 取 (Drill-down) 、 上 卷 (Roll-up) 、 切 片 〈Slice) 、 切 块 
(Dice) 以 及 旋转 (Pivot) ， 下 面 选取 一 个 图 例 进行 说 明 ， 如 图 2-3 所 示 。 

















切片 (Slice) 
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© 4R (Drill-down ) : 在 维 的 不 同 层 次 间 的 变化 ， 从 上 层 降 到 下 一 层 ， 或 者 说 是 将 汇总 
数据 拆 分 到 更 细节 的 数据 ， 比 如 通过 对 2016 年 第 二 季度 的 总 销售 数据 进行 钻 取 来 查看 
2016 年 第 二 季度 4、5、6 每 个 月 的 消费 数据 ， 如 图 2-3; 当然 也 可 以 钻 取 江苏 省 来 查看 
南京 市 、 苏 州 市 、 宿 迁 市 等 城市 的 销售 数据 。 当然 上 面 所 说 所 有 数据 都 已 经 在 预 处 理 
中 根据 维度 组 合计 算出 了 所 有 的 度量 结果 。 

e 上 卷 (Roll-up ) : 钻 取 的 逆 操作 ， 即 从 细 粒 度数 据 向 更 高 汇总 层 的 聚合 ， 如 将 江苏 
省 、 上 海 市 和 浙江 省 的 销售 数据 进行 汇总 来 查看 江浙 沪 地 区 的 销售 数据 ， 如 图 2-3. 

© WA (Slice): 选择 维 中 特定 的 值 进行 分 析 ， 比 如 只 选择 电子 产品 的 销售 数据 ， 或 者 
2016 年 第 二 季度 的 数据 。 

© +7 (Dice): 选择 维 中 特定 区 间 的 数据 或 者 某 批 特定 值 进行 分 析 ， 比 如 选择 2016 年 
第 一 季度 到 2016 年 第 二 季度 的 销售 数据 ， 或 者 是 电子 产品 和 日 用 品 的 销售 数据 。 

© 旋转 (Pivot): 即 维 的 位 置 的 互 换 ， 就 像 是 二 维 表 的 行列 转换 ， 如 图 2-3 中 通过 旋转 
实现 产品 维和 地 域 维 的 互 换 。 


2.4 数据 立方 体 (Data Сире) 


什么 是 数据 立方 体 ? 估计 朋友 们 应 该 在 很 多 地 方 都 听 说 过 ， 或 者 实际 开发 中 也 有 所 涉及 。 数 
据 立方 体 说 白 了 就 是 我 们 可 以 从 三 个 维度 衡量 和 展示 数据 ， 比 如 时 间 、 地 区 、 产 品 构成 三 个 维度 
的 立方 体 。 专 业 解 释 为 : 数据 立方 体 允 许多 维 对 数据 建 模 和 观察 ， 它 由 维和 事实 定义 。 

其 实数 据 立方 体 只 是 对 多 维 模型 的 一 个 形象 的 说 法 。 从 表 方 面 看 ， 数 据 立 方 体 是 三 维 的 ， 但 
是 多 维 模型 不 仅 限于 三 维 模型 ， 可 以 组 合 更 多 的 模型 ， 比 如 四 维 、 五 维 等 等 ， 比 如 我 们 根据 时 
间 、 地 域 、 产 品 和 产品 型 号 这 四 个 维度 ， 统 计 销售 量 等 指标 。 

后 面 我 们 在 介绍 Apache Kylin 的 预计 算 多 维 指标 时 ， 即 是 生成 Cube 的 过 程 ， 将 所 有 的 维度 
(dimensions) 组 合 ，dimensions 的 不 同 组 合 ， 在 Apache Kylin 中 称 为 cuboid。 比 如 包含 n 个 
dimensions 的 cube 有 2^n (2 的 n 次 方 ) 个 cuboid. 
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前 面 已 经 介绍 完了 与 Apache Kylin 或 多 或 少 有 关系 的 理论 知识 ， 从 本 章 开始 我 们 正式 踏 
Apache Kylin 美妙 之 旅 ， 为 了 简化 起 见 ， 我 们 后 面 统一 使 用 Kylin 代替 Apache Kylin， 而 不 是 指 
[= ЕНЕГЕ Ж 


Kylin 工作 原理 


简单 来 说 ，Kylin 的 核心 思想 是 预计 算 ， 即 对 多 维 分 析 可 能 ети 预计 算 ， 将 计算 
好 的 结果 保存 成 Cube 并 存在 HBase 中 ， 供 查询 时 直接 访问 。 把 高 复杂 度 的 聚合 运算 、 多 表 连 接 
等 操作 转换 成 对 预计 算 结 果 的 查询 ， 这 决定 了 Kylin 能 够 拥有 很 好 的 快速 查询 和 高 并 发 能 力 。 
Kylin 的 理论 基础 : 空间 换 时 间 。 


几 个 概念 先 说 一 下 

@ Cuboid: Kylin 中 将 维度 任意 组 合成 为 一 个 Cuboid。 

@ Cube: Kylin 中 将 所 有 维度 组 合成 为 一 个 Cube， 即 包含 所 有 的 Cuboid。 

如 图 3-1 所 示 就 是 一 个 Cube 的 例子 ， 假 设 我 位 有 4 个 dimensions(time, item, location, 
supplier)， 这 个 Cube 中 每 个 节点 ( 称 作 Cuboid) 都 是 这 4 个 dimension 的 不 同 组 合 ， 每 个 组 合 定 


义 了 一 组 分 析 的 dimension (如 group by time,item) , measure 的 聚合 结果 就 保存 在 这 每 个 
Cuboid 上 。 查 询 时 根据 SQL 找到 对 应 的 Cuboid， 读 取 measure 的 值 ， 即 可 返 
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图 3-1 


为 了 更 好 地 适应 Hadoop 大 数据 环境 ，Kylin 从 通常 用 来 做 数据 仓库 的 Hive 中 读 取 源 数据 ， 
使 用 MapReduce 作为 Cube 构建 的 引擎 ， 并 把 预计 算 结 果 保存 在 HBase 中 ， 对 外 暴露 Restful 
APIJDBC/ODBC 的 查询 接口 。 因 为 Kylin 支持 标准 的 ANSI SQL， 所 以 可 以 和 常用 分 析 工 具 

(如 Tableau, Excel 等 ) 进行 无 颖 对 接 。 


3.2 куп 体系 架构 


Kylin 的 系统 架构 如 图 3-2 所 示 。 




















Third Party App SQL-Ba ool 
REST АР! JDBC/ODBC = 
. 1 1 
Kylin ` Q 
t t 
REST Server 
Query Engine 
тї 
= Routing 
Hadoop 
Hive Metadata 
aesae HBase as 
h 
站 Cube Build Engine 
3-2 


下 面 我 们 对 Kylin 的 系统 架构 中 的 各 个 模块 进行 介绍 。 
模块 一 : Hadoop/Hive ( 图 3-2 的 最 左下 部 分 ) 
Kylin 是 一 个 MOLAP 系统 ， 其 将 Hive 中 的 数据 进行 预计 算 ， 利 用 Hadoop 的 MapReduce 
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分 布 式 计算 框架 来 实现 。 

这 一 块 也 提 到 了 Kylin 获取 的 表 是 星 型 模型 结构 的 ， 也 就 是 目前 建 模 时 仅 支持 一 张 事实 表 ， 
多 张 维 表 。 如 果 你 的 业务 需求 比较 复杂 ， 那 么 就 要 考虑 在 Hive 中 进行 进一步 处 理 ， 比 如 生成 一 
张大 的 宽 表 或 者 采用 view RE. 


模块 二 : HBase ( 图 3-2 的 最 右 下 部 分 ) 
HBase 是 Kylin 中 用 来 存储 OLAP 分 析 的 Cube 数据 的 地 方 ， 实 现 多 维 数据 集 的 交互 式 查询 。 
模块 三 : Kylin 的 核心 异 块 ( 图 3-2 的 中 间 部 分 ) ， 包 含 如 下 几 个 部 分 : 


(1) REST Server 
提供 Restful 接口 ， 例 如 我 们 可 以 通过 此 接口 来 创建 Cube、 构 建 Cube、 刷 新 Cube、 合 并 
Cube 等 Cube 相关 操作 ，Kylin 的 Projects. Tables 等 元 数据 管理 ， 用 户 访问 权限 控制 ， 系 统 参数 
动态 配置 或 修改 等 。 
另外 还 有 一 点 也 很 重要 ， 就 是 我 们 可 以 通过 Restful 接口 实现 SQL 的 查询 ， 不 论 你 是 通过 第 
三 方程 序 ， 还 是 Kylin 的 Web 界面 使 用 。 


(2) Query Engine 

目前 Kylin 使 用 开源 的 Calcite 框架 来 实现 SQL 解析 ， 可 以 理解 为 SQL 引擎 层 。 其 实 采 用 
Calcite 框架 还 有 很 多 产品 ， 比 如 Apache 顶级 项 目 Drill， 它 的 SQL Parser 部 分 采用 的 也 是 
Apache Calcite，Calcite 实现 的 功能 是 提供 了 JDBC interface， 接 收 用 户 的 查询 请 求 ， 然 后 将 SQL 
Query 语句 转换 成 为 SQL 语法 树 ， 也 就 是 逻辑 计划 。 


(3) Routing 
负责 将 解析 SQL 生成 的 执行 计划 转换 成 cube 缓存 的 查询 ，cube 是 通过 预计 算 缓存 在 HBase 
中 ， 这 部 分 查询 是 可 以 在 秒 级 甚至 毫秒 级 完成 ， 而 还 有 一 些 操作 使 用 过 查询 原始 数据 (存储 在 
Hadoop 的 HDFS 上 通过 Hive 查询 ) ， 这 部 分 查询 的 延迟 比较 高 。 
(4) Metadata 
Kylin 中 有 大 量 的 元 数据 信息 ， 包 括 cube 的 定义 、 星 型 模型 的 定义 、Job 和 执行 Job 的 输出 
信息 、 模 型 的 维度 信息 等 等 。Kylin 的 元 数据 和 cube 都 存储 在 HBase 中 ， 存 储 的 格式 是 json 字 
符 串 。 
(5) Cube Build Engine 
这 个 模块 内 容 非常 重要 ， 它 也 是 所 有 模块 的 基础 ， 它 主要 负责 Kylin 预计 算 中 创建 cube。 创 
建 的 过 程 是 首先 通过 Hive 读 取 原 始 数据 ， 然 后 通过 一 些 MapReduce 或 Spark 计算 生成 Htable， 
最 后 将 数据 load 到 HBase 表 中 。 


模块 四 : Kylin 提供 的 接口 (图 3-2 的 中 间 正 上 面 ) 


这 部 分 模块 主要 是 提供 了 Restful API 和 JDBC/ODBC 接口 ， 方 便 第 三 方 Web APP 产品 和 基 
于 SQL 的 BI 工具 的 接 入 ， 比 如 Apache Zeppelin, Tableau, Power ВІ 等 。 
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Kylin 提供 的 JDBC 驱动 的 classname 为 org.apache.kylinjdbc.Driver， 使 用 的 URL 的 前 级 
jdbc:kylin:， 使 用 JDBC 接口 的 查询 走 的 流程 和 使 用 RESTFul 接口 查询 走 的 内 部 流程 是 相同 的 。 
这 类 接口 也 使 得 Kylin 很 好 地 兼容 tebleau 甚至 mondrian。 


3.3 куйп 中 的 核心 部 分 : Cube 构建 


在 上 面 介 绍 的 Kylin 体系 架构 中 ， 我 们 也 提 到 了 Kylin 的 核心 部 分 为 Cube 的 构建 引擎 ， 本 
节 将 详细 揭秘 Kylin 中 Cube 的 各 方面 。 我 们 先 从 理论 上 说 明 每 个 Cube 是 如 何 计 算出 来 的 ， 后 面 
环境 搭建 起 来 会 进行 实践 。 

Kylin 在 1.5 之 前 的 版 本 中 ， 对 于 Cube 的 构建 ，Kylin 提供 了 一 个 称 作 Layer Cubing 的 算 
法 。 简 单 来 说 ， 就 是 按照 dimension 数量 从 大 到 小 的 顺序 ， 从 Base Cuboid 开始 ， 依 次 基于 上 一 
层 Cuboid 的 结果 进行 再 聚合 。 每 一 层 的 计算 都 是 一 个 单独 的 MapReduce 任务 ， 如 图 3-3 所 示 。 


r 
会 wm 
Ф 
Ф 
Ф wm 
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Layer Cubing 算法 ， 可 以 称 为 逐 层 算法 ， 它 会 启动 N+1 轮 MapReduce 计算 。 第 一 轮 读 取 原 
始 数据 (RawData) ， 去 掉 不 相关 的 列 ， 只 保留 相关 的 。 同 时 对 维度 列 进行 压缩 编码 ， 以 此 处 的 
四 维 Cube 为 例 ， 经 过 第 一 轮 计算 出 ABCD 组 合 ， 我 们 也 称 为 Base Cuboid。 

此 后 的 每 一 轮 MapReduce， 输 入 是 上 一 轮 的 输出 ， 以 重用 之 前 计算 的 结果 ， 去 掉 要 聚合 的 
维度 ， 算 出 新 的 Cuboid， 以 此 往 上 ， 直 到 最 后 算出 所 有 的 Cuboid。 

从 1.5.x 开始 引入 了 Fast(in-mem) cubing 算法 ， 利 用 Mapper 端 计 算 先 完成 大 部 分 聚合 ， 再 将 
聚合 后 的 结果 交 给 Reducer， 从 而 降低 对 网 络 瓶颈 的 压力 。 对 500 多 个 Cube 任务 的 实验 显示 ， 
引入 Fast cubing 后 ， 总 体 的 Cube 构建 任务 提速 1.5 倍 ， 如 图 3-4 所 示 。 
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mapper mapper mapper 
Merge Sort 
(Shuffle) 


reducer 

















图 3-4 


MapReduce 的 计算 结果 最 终 保存 到 HBase 中 ，HBase 中 每 行 记 录 的 Rowkey 由 dimension 组 
JÑ, measure 会 保存 在 column family 中 。 为 了 减 小 存储 代价 ， 这 里 会 对 dimension 和 measure Е 
行 编码 。 





5„& Kylin 的 SQL 查询 


Kylin 为 Hadoop 提供 标准 SQL 支持 大 部 分 查询 功能 ， 因 此 我 们 可 以 通过 提交 SQL 来 查询 预 
计算 的 结果 数据 。 

Cube 构建 完成 后 ， 我 们 就 可 以 查询 维度 对 应 的 度量 值 了 。 查 询 的 时 候 ，SQL 语句 被 SQL 解 
析 器 翻译 成 一 个 解释 计划 ， 从 这 个 计划 可 以 准确 知道 用 户 要 查 哪些 表 ， 它 们 是 怎样 join 起 来 ， 
有 哪些 过 滤 条 件 等 等 。Kylin 会 用 这 个 计划 去 匹配 寻找 合适 的 Cube。 如 果 有 Cube 命中 ， 这 个 计 
划 会 发 送 到 存储 引擎 ， 翻 译 成 对 存储 (默认 HBase) 相应 的 Scan 操作 。Group by 和 过 滤 条 件 的 
列 ， 用 来 找到 Cuboid， 过 滤 条 件 会 被 转换 成 Scan 的 开始 和 结束 值 ， 以 缩小 Scan 的 范围 。Scan 
的 result、Rowkey 会 被 反 向 解码 成 各 个 dimension 的 值 ，Value 会 被 解码 成 Metrics 值 ， 同 时 利用 
HBase 列 存 储 的 特性 ， 可 以 保证 Kylin 有 良好 的 快速 响应 和 高 并 发 。 


З.Э Kylin 的 特性 和 生态 图 
上 面 介绍 完了 Kylin 的 体系 架构 ， 下 面 我 们 将 Kylin 的 特性 和 生态 圈 简 单 罗列 一 下 ， 供 朋友 
们 提前 从 整体 上 认识 一 下 ， 后 面 对 于 这 些 特性 和 生态 圈 都 会 有 所 涉及 。 


1. Kylin 的 特性 


СТ) 可 扩展 超 快 OLAP 引擎 
Kylin 是 为 减少 在 Hadoop 上 百 亿 规模 数据 查询 延迟 而 设计 的 。 


第 3 章 Apache Kylin 工作 原理 和 体系 架构 
(2) Hadoop ANSISQL 接口 


Kylin 为 Hadoop 提供 标准 SQL 支持 大 部 分 查询 功能 。 


(3) 交互 式 查询 能 力 
通过 Kylin， 用 户 可 以 与 Hadoop 数据 进行 亚 秒 级 交互 ， 在 同样 的 数据 集 上 提供 比 Hive 更 好 
的 性 能 。 


(4) 多 维 立 方 体 (MOLAP Cube) 
用 户 能 够 在 Kylin 里 为 百 亿 以 上 数据 集 定义 数据 模型 并 构建 立方 体 。 


(5) 与 BI 工具 无 颖 整合 
Kylin 提供 与 BI С.А С Tableau) 的 整合 能 力 。 


(6) 其 他 特性 

Job 管理 与 监控 

压缩 与 编码 

增 量 更 新 

利用 HBase Coprocessor 

基于 HyperLogLog 的 Dinstinc Count 近似 算法 
友好 的 Web 界面 ， 以 管理 、 监 控 和 使 用 立方 体 
项 目 及 立方 体 级 别 的 访问 控制 安全 

支持 LDAP 


2. Kylin 生态 圈 
Kylin 生态 圈 如 图 3-5 所 示 。 


© Kylin 核心 : Kylin OLAP 引擎 基础 杠 Integration Extension 
架 ， 包 括 元 数据 (Metadata) 引擎 、 查 询 т. узды аи 
引擎 、 Job 引擎 及 存储 引 营 等 ， 同 时 包括 Metadata Redis Storage 
REST 服务 器 以 响应 客户 端 请 求 。 

ө 扩展: 支持 额外 功能 和 特性 的 插件 。 

@ 整合 : 与 调度 系统 、ETL、 监 控 等 生命 周 
期 管理 系统 的 整合 。 

© MPRI: £ Kylin 核心 之 上 扩展 的 第 三 
方 用 户 界 面 。 

© 152): ODBC 和 JDBC 驱动 以 支持 不 同 
的 工具 和 产品 ， 比 如 Tableau。 


Interface 
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第 4 章 


< 搭建 CDH 大 数据 平台 > 


CDH (Cloudera's Distribution, including Apache Hadoop) ， 是 Hadoop 众多 分 支 中 的 一 种 ， 
Cloudera 维护 ， 基 于 稳定 版 本 的 Apache Hadoop 构建 ， 并 集成 了 很 多 补丁 ， 可 直接 用 于 生产 环 
境 。 

CM (全 称 Cloudera Manager) 则 是 为 了 便于 在 集群 中 进行 Hadoop 等 大 数据 处 理 相关 的 服务 
安装 和 监控 管理 的 组 件 ， 对 集群 中 主机 、Hadoop、Hive、Spark 等 服务 的 安装 配置 管理 做 了 极 大 
简化 。 

CM 部 署 包括 如 下 的 软件 安装 : 


@ Oracle JDK 安装 。 

















© Cloudera Manager Server 和 Agent 包 安 装 。 
@ ”存储 相关 元 数据 的 数据 库 安 装 。 
° 


CDH 和 管理 服务 的 软件 包 安 装 。 

Cloudera 官方 共 给 出 了 3 种 安装 方式 : 

@ 第 一 种 方法 必须 要 求 所 有 机 器 都 能 连 网 。 

ө 第 二 种 方法 下 载 很 多 包 。 

@ 第 三 种 方法 对 系统 侵入 性 最 小 ， 最 大 优点 可 实现 全 离线 安装 ， 而 且 重 装 什么 的 都 非常 
方便 。 后 期 的 集群 统一 升级 也 非常 好 。 这 也 是 我 之 所 以 选择 离线 安装 的 原因 。 





(1) 由 于 我 们 的 生产 环境 的 集群 节点 比较 多 ， 这 里 为 了 方便 演示 ， 我 们 搭建 了 一 个 只 有 4 
个 节点 СОН 集群 ， 没 有 搭建 ResourceManager 的 主 备 ， 以 及 没有 HDFS 的 HA 等 ， 如 果 需 要 的 
话 ， 可 以 通过 CM 进行 动态 扩展 。 

(2) 我 们 的 实际 环境 CM 和 СОН 版 本 已 经 从 5.6.0 升级 为 5.7.0， 为 了 方便 朋友 部 署 CDH 
5.7.0 版 本 ， 我 们 本 章 都 是 基于 5.7.0 版 本 部 署 的 集群 环境 ， 但 是 截图 都 是 5.6.0 版 本 的 (请 朋友 
们 谅解 ) ， 这 两 个 版 本 的 部 署 界 面 和 安装 步骤 都 没什么 变化 ， 具 体 情况 ， 朋 友 安 装 过 程 中 可 以 进 
行 参考 。 

G) 后 续 章节 中 部 署 的 Kylin 集群 环境 都 是 基于 CDH 5.7.0 环境 来 搭建 大 数据 分 析 平 台 。 

















A.T 系统 环境 和 安装 包 


411 ”系统 环境 
主机 环境 : 





操作 系统 : CentOS 6.7(Final) x64。 
СМ 和 CDH 的 版 本 号 : 5.7.0。 
组 件 规划 根据 自己 的 实际 情况 ， 进 行 组 件 规划 ) ， 如 表 4-1 所 示 。 
#41 
IP 地 址 
10.20.22.202 


角色 

CM 管理 组 件 
NameNode 
ResourceManager 
HBase Master 

Impala StateStore 
Impala Catalog Server 
Hive HiveServer2 
Hive Metastore Server 


10.20.22.204 


ZooKeeper Server 
10.20.22.209 DataNode 
ZooKeeper Server 
NodeManager 
HBase RegionServer 
Impala Daemon 
10.20.22.210 DataNode 
ZooKeeper Server 
NodeManager 
HBase RegionServer 


Impala Daemon 
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СИД сон 集成 的 组 件 比 较 多 ， 比 如 Spark、Oozie、Solr、Hue 等 ， 根 据 自己 的 要 求 动态 扩容 。 同 
一 一 时 每 个 节点 部 署 的 组 件 不 宜 过 多 ， 根 据 组 件 的 CPU 和 内 存 占用 ， 对 磁盘 读 写 、 网 络 带 宽 等 
进行 合理 规划 。 




















412 ”安装 包 的 下 载 


1. 安装 说 明 
官方 参考 文档 〈 第 三 种 安装 方式 : 手工 离线 安装 方式 ) : 


2. 相关 包 的 下 载 地 址 
Cloudera Manager 下 载 地 址 : 


CDH 安装 包 地 址 : http://archive.cloudera.com/cdh5/parcels/5.7.0/， 由 于 我 们 的 操作 系统 为 
CentOS 6.7， 需 要 下 载 以 下 文件 : 





CDH 5.6.x 支持 的 JDK 版 本 如 表 4-2 所 示 : 


#42 
最 小 支持 的 版 本 号 推荐 的 版 本 号 说 明 


170 55 170 67,170 75170 80 
1.8.0 31 1.8.0 60 不 推荐 使 用 JDK 1.8.0 40 


本 环境 使 用 的 JDK 为 : 








当然 如 果 需 要 ， 你 也 可 以 直接 使 用 1.7.0_80 版 本 的 JDK。 
CM 和 其 支持 的 服务 可 以 使 用 如 下 的 数据 库 : 


© MariaDB 5.5 
ө MySQL-5.1、55 和 5.6 
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© 。 PostgreSQL -8.1. 8.3, 84. 9.1. 92. 93 和 9.4 
© Oracle 11gR2 和 12c 


Cloudera Manager 和 CDH 支持 的 Oracle JDBC Driver 完整 版 本 号 为 : 使 用 JDK 6 编译 的 
Oracle 11.2.0.3.0 JDBC 4.0， 这 个 驱动 的 Jar 包 名 字 为 ojdbc6jar。 


这 里 使 用 的 数据 库 为 MySQL， 具 体 包 为 : 


4.2 准备 工作 : 系统 环境 搭建 


本 节 讲 解 系统 环境 搭建 ， 以 下 操作 均 用 root 用 户 操作 。 


4.21 网络 配置 (CDH 集群 所 有 节点 ) 


vi /ete/sysconfig/network 修改 hostname: 


[Ий HOSTNAME wo 仁 要 设置 为 每 人 主机 自己 的 主机 名， 你 可 以 通过 执行 hosmame H Linux 命令 
”获取 主机 名 或 者 其 他 方式。 





通过 service network restart 重启 网 络 服务 生效 。 
在 每 个 节点 的 /etc/hosts 文件 中 加 入 集群 的 所 有 主机 名 和 IP 地 址 : 











(Сй 这 时 主要 ff 华人 机 器 的 也 及 主机 名 对 应 关系 都 号 进 去 ， 本 机 的 也 要 号 进去 ， 否 则 启动 Agent 
的 时 候 会 提示 hostname 解析 错误 。 








422 打通 SSH， 设 置 ssh 无 密码 登录 (所 有 节点 ) 
创建 主机 之 间 的 互相 信任 关系 方式 有 好 几 种 : 
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1. 第 一 种 ( 假如 是 在 root 用 户 下 面 创建 信任 关系 ) 


在 节点 (SZB-L0020040) 上 执行 ssh-keygen -t rsa 一 路 回 车 ， 生 成 无 密码 的 密 钥 对 。 
将 公 钥 添加 到 认证 文件 中 : 


并 设置 authorized keys 的 访问 权限 : 


除了 SZB-L0023776 节点 外 ， 其 他 4 个 节点 也 执行 上 面 的 操作 生成 无 密码 的 密 钥 对 。 

复制 其 他 4 个 节点 的 公 钥 文件 内 容 到 SZB-L0020040 节点 的 authorized_keys 中 。 

将 节点 SZB-L0020040 的 authorized_keys 复制 到 其 他 节点 的 /root.ssh/ 下 面 ， 这 样 CDH 集群 
的 所 有 节点 之 间 都 拥有 其 他 节点 的 公 钥 ， 所 以 每 个 节点 之 间 都 可 以 免 密码 登录 。 


具体 实战 操作 步骤 说 明 如 下 。 


(1) СОН 集群 的 所 有 节点 都 执行 如 下 Linux 命令 : 





(2) 将 所 有 节点 (除了 SZB-L0020040 节点 ) 生成 的 id_rsa.pub 复制 到 某 一 个 节点 〈SZB- 
L0020040) J EMH: 





(з) 将 (2) 复制 过 来 的 每 个 节点 的 id_rsapub 内 容 都 追加 到 SZB-L0020040 节点 的 
authorized keys 文件 中 ， 具 体 Linux 命令 如 下 : 





(4) 将 SZB-L0023776 节点 的 authorized_keys 复制 到 所 有 节点 : 
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到 此 所 有 节点 都 可 以 免 密 码 相 互 登录 了 。 


2. 第 二 种 ( 假如 是 在 root 用 户 下 面 创建 信任 关系 ) 


我 们 使 用 ssh-copy-id 命令 ， 将 本 节点 的 公 钥 自 动 复制 到 指定 的 节点 的 authorized keys 文件 
中 ， 省 去 了 自己 手工 复制 公 钥 的 过 程 了 。 
具体 的 操作 如 下 : 


(1) 在 CDH 集群 的 每 一 个 节点 执行 如 下 命令 : 


一 路 回 车 ， 生 成 无 密码 的 密 钥 对 。 
(2) 如 果 从 SZB-L0020040 节点 免 密码 登录 到 SZB-L0020041 节点 ， 则 执行 如 下 命令 : 


这 个 命令 执行 后 会 提示 输入 SZB-L0020041 的 root 用 户 密码 。 
如 果 从 SZB-L0020041 节点 免 密码 登录 到 SZB-L0020040 节点 ， 则 执行 如 下 命令 : 


这 个 命令 执行 后 会 提示 输入 SZB-L0020040 的 root 用 户 密码 。 


(3) 测试 
从 SZB-L0020040 登录 到 SZB-L0020041: 


从 SZB-L0020041 登录 到 SZB-L0020040: 


(4) 其 他 节点 采用 上 面 的 步骤 进行 操作 ， 这 里 就 省 略 掉 了 。 


3. 安装 Oracle 的 Java ( 所 有 节点 ) 


CentOS 一 般 默 认 自 带 OpenJDK， 不 过 运行 CDH5 需要 使 用 Oracle 的 JDK， 需 要 Java 7 的 
支持 。 

ЩН 100 OpenJdk， 使 用 rpm -qa | grep java 查询 java 相关 的 包 ， 使 用 rpm -e --nodeps 包 
BER. RPF CER openjdk 版 本 有 可 能 不 一 样 ) : 
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我 们 可 以 去 Oracle 的 官网 下 载 JDK， 这 里 我 是 直接 从 Cloudera 上 面 获 取 ， 下 载 地 址 为 : 


执行 安装 操作 : 


安装 后 的 目录 如 下 : 


创建 软 链接 : 


再 次 查看 : 


配置 Java 的 环境 变量 ， 添 加 如 下 内 容 到 /etc/profile 文件 的 末尾 : 





查看 目前 系统 的 JDK 版 本 号 : 





N 
| 
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4. 安装 配置 MySQL(SZB-L0020040 , SZB-L0020041) 


SZB-L0020040 存储 CM 监控 等 元 数据 ，SZB-L0020041 存储 Hive 元 数据 。 


ee 


这 里 只 演示 在 SZB-L0020041 部 团 MySQL 数据 库 的 步骤 ，SZB-L0020040 同 理 。 


(1) 从 Oracle 官网 上 下 载 MySQL 的 安装 包 放 到 /usr/local 目录 下 ， 解 压缩 和 创建 日 志 目 录 。 
MySQL 的 安装 目录 根据 实际 情况 ， 决 定 部 署 在 什么 地 方 。 


解压 缩 : 


设置 软 链接 : 


创建 日 志 目 录 : 





(2) 生成 my.cnf 配置 文件 。 





配置 my.cnf 内 容 为 : 
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(3) 正式 创建 数据 库 。 





(4) 修改 /etc/profile 文件 ， 添 加 MySQL 环境 变量 。 


使 环境 变量 生效 : 


(5) 启动 数据 库 。 
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(6) 修改 MySQL 数据 库 的 root 密码 。 


(7) 删除 test 数据 库 和 匿名 用 户 等 ， 尤 其 对 于 生产 环境 更 要 操作 。 


按照 提示 一 步 一 步 操作 ， 此 处 略 。 
(8) 安装 MySQL 的 JDBC 驱动 。 


对 于 MySQL 5.6 版 本 的 数据 库 需 要 5.1.26 或 更 高 版 本 的 JDBC 驱动 。 
下 载 地 址 : http://dev.mysql.com/downloads/connector/j/5.1.html。 
当然 我 们 也 可 以 在 Linux 环境 下 ， 直 接 使 用 wget 下 载 : 


解压 缩 : 


将 JDBC 驱动 复制 到 指定 的 位 置 : 


(9) 为 CM 管理 的 各 个 组 件 创建 对 应 的 数据 库 、 用 户 等 ， 如 表 4-3 所 示 。 


Password 


Cloudera Navigator Audit Server 
Cloudera Navigator Metadata Server 














创建 metastore 数据 库 和 用 户 ， 其 他 用 户 类 似 : 
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具体 详细 信息 请 参考 MySQL 官方 配置 文档 : 


5. 关闭 防火 墙 和 SELinux 





需要 在 所 有 的 节点 上 执行 ， 因 为 涉及 的 端口 太 多 了 ， 临 时 关闭 防火 墙 是 为 了 安装 起 来 更 方 


便 ， 安 装 完毕 后 可 以 根据 需要 设置 防火 墙 策略 ， 保 证 集群 安全 。 





关闭 防火 墙 : 


关闭 SELINUX: 


修改 /etc/selinux/config 下 的 SELINUX=disabled (重启 后 永久 生效 )。 


6. 所 有 节点 配置 NTP 服务 
要 求 CDH 集群 的 每 个 节点 时 间 保 持 同步 ， 请 配置 集群 的 NTP 服务 。 


7. 配置 操作 系统 内 核 参数 


(1) 参数 1: kernel.mm.redhat transparent_hugepage.defrag 
该 参数 默认 值 为 always， 这 可 能 带 来 CPU 利用 率 过 高 的 问题 ， 需 要 将 其 设置 为 never， 使 用 
如 下 的 linux 命令 : 


x Š echo never > /sys/kernel/mm/redhat transparent hugepage/defrag 
为 了 保证 重启 生效 ， 可 以 把 这 个 命令 写 到 /etelreJlocal 文件 中 ， 保 证 每 次 开机 都 能 调用 。 


(2) 参数 2: vm.swappiness 
该 参数 默认 值 为 60， 这 里 将 其 设置 为 0， 让 操作 系统 尽 可 能 不 使 用 交互 分 区 ， 有 助 于 提高 集 
群 的 性 能 。 将 该 配置 参数 写 入 配置 文件 /etc/sysctLconf， 可 以 执行 下 面 的 命令 : 


| #есһо "vm.swappiness = 0" >> /etc/sysctl.conf | 
运行 如 下 命令 使 配置 参数 生效 : 
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外 .正式 安装 CDH : 准备 工作 


1. 安装 Cloudera Manager Server 和 Agent 


首先 在 主 节点 (SZB-L0020040) 解压 安装 СМ. 
将 下 载 的 CM 包 放 在 /opt/ 目 录 中 解压 : 


CM Agent 配置 
修改 /opycm-5.7.0etc/cloudera-scm-agentyconfig ini 中 的 server host 为 主 节点 的 主机 名 和 端口 号 : 


同步 主 节点 (SZB-L0020040) 的 Agent 到 其 他 节点 : 


2. 所 有 节点 都 创建 cloudera-scm 用 户 


3. 为 Cloudera Manager 5 建立 数据 库 ( 选择 存放 СМ 元 数据 的 MySQL 数据 库 ) 
首先 需要 去 MySql 的 官网 下 载 JDBC 驱动 ， 下 载 地 址 为 : 


下 载 完成 后 ， 进 行 解压 缩 ， 找 到 mysql-connector-java-5.1.38-bin jar 文件 并 放 到 /opycm- 
5.7.0/share/cmfBlib/ 中 。 

然后 在 主 节点 初始 化 CM 5 的 数据 库 。 

在 MySQL 数据 库 中 创建 sem 用 户 : 


再 执行 创建 sem 数据 库 等 操作 : 
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4. 准备 Parcels， 用 以 安装 CDH5 
在 CM Server 上 创建 存放 Parcels 的 目录 并 修改 属 主 和 属 组 : 


在 集群 的 每 个 节点 创建 目录 : 





КӘ | 





| 如 果 CMS 安装 包 解压 缩 就 存在 上 面 两 个 目录 ， 那 么 就 不 需要 创建 此 目录 了 。 


将 CDH5 相关 的 Parcel 包 放 到 主 节点 的 /optycloudera/parcel-repo/ 目 录 中 。 
相关 的 文件 如 下 : 


最 后 ， 将 CDH-5.7.0-l.cdh5.7.0.p0.45-el6.parcel.shal 重 命 名 为 CDH-5.7.0-1.cdh5.7.0.p0.45- 
el6.parcel.sha， 这 点 必须 注意 ， 否 则 ， 系 统 会 重新 下 载 CDH-5.7.0-1.cdh5.7.0.p0.45-el6.parcel 文件 。 


5. CM 相关 启动 脚本 


通过 /opt/cem-5.7.0/etc/init.d/cloudera-scm-server start 启动 服务 端 。 

通过 /opt/cem-5.7.0/etc/init.d/cloudera-scem-agent start 启动 Agent 服务 。 

我 们 启动 的 其 实 是 个 service 脚本 ， 需 要 停止 服务 将 以 上 的 start 参数 改 为 stop 就 可 以 了 ， 重 
启 是 restart。 

针对 我 们 的 环境 ， 需 要 在 SZB-L0020040 主 节点 上 启动 Server 和 Agent， 然 后 其 余 节点 启动 
Agent 服务 。 








外. 和。 正式 安装 CDH5 : 安装 配置 


4.4.1 CDH5 的 安装 配置 


Cloudera Manager Server 和 Agent 都 启动 以 后 ， 就 可 以 进行 CDH5 的 安装 配置 了 。 这 时 我 们 
可 以 通过 浏览 器 访问 主 节点 的 7180 端口 测试 一 下 了 《由 于 CM Server 的 启动 需要 花 点 时 间 ， 这 
里 可 能 要 等 待 一 会 才能 访问 ) ， 默 认 的 用 户 名 和 密码 均 为 admin， 如 图 4-1 所 示 。 
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Login 

Usemame 
admin 

Password 


Remember me on ms compute! 


图 4-1 


输入 用 户 名 和 密码 后 ， 单 击 Login 进行 登录 ， 进 入 下 一 步 又， 如 图 4-2 所 示 。 


je а х 0 102022208 











Welcome to cloudera Manager 


End User License Terms and Conditions 











° 








4-2 


选中 同意 协议 ， 并 单 击 “ 继 续 ”。 可 以 看 到 ， 免 费 版 本 的 СМ5 已 经 没有 原来 50 个 节点 数 
量 的 限制 了 。 我 这 里 可 以 选用 企业 试用 版 ， 体 验 一 些 功能 ， 如 图 4-3 所 示 。 
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Which edition do you want to deploy? 


Upgrading to Cloudera Enterprise Data Hub Edition provides important features that help you manage and montor your Hadoop clusters in mission-criical environments. 


Cloudera Express Cloudera Enterprise Cloudera Enterprise 
Data Hub Edition Trial 
+ 
License Free 60 Days Annual Subscription 
After the trial penca, me product wil Upload License 
continue 10 unction as cloudera Express pa сук! censeri RU”2 
Your cluster and your data will remain 
Unaffected Cloudera Enterprise is available in three 
earons 
+ Basic Edition 





+ Flex Edition 
< Data Huo Eaton 





Node Limit Unlimited Unlimited Unlimited 
CDH + 
Соге cloudera Manager Features v 


Advanced Cloudera Manager Features 


EE TE 5 


Cloudera Navigator 
Cloudera Navigator Key Trustee 


EIEEE 


Cloudera Support 


图 4-3 








继续 单 击 Continue， 进 入 下 一 步 ， 如 图 4-4 所 示 。 





感谢 您 选择 Cloudera Manager 和 СОН. 


SIRIEI Ciowdera Епира Data ub Eaton Жао, FAN ийй тел wanu EATR (ne 

















图 4-4 
感谢 选择 CM 和 CDH， 列 出 CDH 中 集成 的 组 件 清单 ， 单 击 “ 继 续 ”。 


各 个 Agent 节点 正常 启动 后 ， 可 以 在 当前 管理 的 主机 列表 中 看 到 对 应 的 节点 ， 选 择 要 安装 的 
节点 。 对 于 我 们 的 集群 环境 ， 选 择 4 个 节点 ， 单 击 “ 继 续 ”， 进 入 下 一 步 ， 如 图 4-5 所 示 。 
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con pm 








P = aa кгз 
图 4-5 


这 一 步 出 现 了 我 们 需要 安装 的 CDH 版 本 号 ， 说 明 本 地 Parcel 包 配 置 无 误 ， 直 接 单 击 “ 继 
续 ”， 进 入 下 一 步 ， 如 图 4-6 所 示 。 


cloudera Supporl” айт 


Cluster Installation 





к Back н Continue 








图 4-6 
如 果 配 置 本 地 Parcel 包 无 误 ， 那 么 图 4-6 中 的 “Downloaded” 应 该 是 瞬间 就 完成 ， 然 后 就 是 
耐心 等 待 分 配 过 程 ， 解 包 过 程 和 激活 过 程 ， 一 般 10~20 分 钟 ， 取 决 于 内 网 网 速 。 
这 一 步骤 其 实 做 了 几 个 事情 : 
(1) 从 CM Server 节点 分 发 CDH-5.7.0-1.cdh5.7.0.p0.45-el6.parcel 到 每 个 CM Agent 节点 。 


(2) 解压 每 个 CM Agent 下 的 CDH-5.7.0-1.cdh5.7.0.p0.45-el6.parcel 包 。 
(3) 激活 每 个 CM Agent 的 CDH。 
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激活 完成 后 的 状态 ， 如 图 4-7 所 示 。 


群集 安装 


ЖЕЗ ВЖЕ Расе 
AEN апе тена РНЕ} 











图 4-7 


我 们 单 击 “ 继 续 ”， 进 入 系统 检查 环节 ， 如 图 4-8 所 示 。 





Cluster Installation 


Inspect hosts for correctness 





н Back и Finish 











Eg 4-8 


如 果 你 的 环境 检查 有 问题 ， 根 据 提示 修改 后 再 次 检查 ， 直 到 所 有 问题 消除 为 止 。 
接 下 来 是 选择 安装 服务 ， 这 里 选择 安装 所 有 的 服务 的 方式 ， 如 图 4-9 所 示 。 
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cloudera 


群集 设置 
татна заат сон 5 MA. 





4-9 


选择 好 安装 的 服务 组 合 后 ， 进 入 服务 配置 环节 ， 
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прово нае 


- 般 情况 下 保持 默认 就 可 以 了 (Cloudera 


Manager 会 根据 机 器 的 配置 自动 进行 配置 ， 如 果 需 要 特殊 调整 ， 自 行进 行 设置 就 可 以 了 ) ， 如 图 


4-10~ 图 4-12 所 示 。 


:loudera 





ано 





munaxa, 








ee n 





еман, апи сюе 














图 4-10 
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Y impara 
ШЙ праз cataoo server х 13658 Ш праз satestoe < тїт 
Sz-L0020041 SZB10020041 





演 Key-Value Store Indexer 


ШШ uy Haase indexer x 1 303E 
SZ8-to020041 


E] cioudera Management service 


ET]servee montor x 188 E Acity montor EJ Host montor х ig E Repons manager х 1858 
528-10020040 + 62:4 зовдог = SZB40020040~ 

Mf Even sever < а лепог < таа ШФ кама Avan Server х 1 新 中 [I nangator weraoata server x 1 新 建 
SZ8-L0020040 = Szë L0020040 = SZ L0020040 = 528-10020040 + 

ooze 


W ooze serer ， (Ei 
sza L0020041 


вог 


Ж Sor Server х 1508 


S28-L0020041 

Gt spark 

EE Hsiony sever х тж caeway x aiit 
52810020041 SZ8-LI0020040-0020043J 








图 4-11 


H! YARN (MR2 Included) 


ResourceManager › 1 98. ED] otiistoy Server x 1302 EZ новемападег > 2 зв 
SZB-LO020041 SZ8-L0020041 $ DataNode Н 


Å Zook 


Ш: ope 
ѕавьцп020041-0020043]= 


и 返回 





图 4-12 


然后 单 击 “继续 ”， 开 始 进行 数据 库 方面 的 设置 ， 如 图 4-13 所 示 。 
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Жане 

аараан ааа 

ка = 

шы sess шы ш 

= == == 

-— 

= == sess мы ш 

a == 
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Navigator Metadata Server — Surenen 

>= 
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з === 
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= 
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配置 好 后 ， 进 行 测试 连接 。 检 查 通过 后 单 击 “ 继 续 ”就 可 以 进行 下 一 步 操作 了 。 
下 面 是 集群 设置 页 面 ， 根 据 实际 情况 配置 ， 这 里 我 只 截图 一 小 部 分 ， 如 图 4-14 所 示 。 


CTuster Setup 

Review Changes 
HOFS Root Directory Сал 1 = Haase (0amvee есе, © 
hbase eat — 
Enable Rephication Custer 1 > HBase (servce wae) 中 e 
Enable indexing Cluster 1 > HBase (Service-Wide) Ш ө 
HOFS Block Size Cluster 1 > HOFS Sevee-We) ө 
am bioch эге взге — Ет 
DataNode Falled Volumes Tolerated chear1、~Daahcee Dasuk roun ө 
б datanode ы еа velumes oierated and oer 
Editindividual Values 2 

1 








图 4-14 


下 面 我 们 正式 进入 安装 各 个 服务 的 重要 步骤 了 。 








这 里 安装 Hive 的 时 候 会 报错 ， 因 为 我 们 使 用 了 MySQL 作为 Hive 的 元 数据 存储 ，Hive 默认 
HAH MySQL 的 驱动 ， 通 过 以 下 命令 复制 MySQL 的 驱动 就 可 以 了 《所 有 Hive 节点 都 执行 
此 操作 ) : 
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JZ H! f#JJopt/em-5.7.0/share/cmf/lib/mysql-connector-java-5.1.38-bin jar 驱动 包 ， 是 我 们 前 面 安 装 
MySQL 时 放置 的 ， 如 图 4-15 所 示 。 











图 4-15 
服务 的 安装 过 程 大 约 半 小 时 内 就 可 以 完成 。 
安装 完成 后 ， 就 可 以 进入 集群 界面 看 一 下 集群 的 当前 状况 了 。 如 果 页 面 出 现 无 法 发 出 查询 ， 
对 Service Monitor 的 请 求 超时 的 错误 提示 时 ， 在 确定 各 个 组 件 安装 没有 问题 的 情况 下 ， 一 般 是 
因为 服务 器 运行 比较 卡 导 致 的 ， 过 一 会 刷新 一 下 页 面 就 好 了 。 


= 根据 经 验 ， 一 般 情况 下 安装 完 后 此 页 面 有 很 多 告 获 和 异常 情况 ， 需 要 根据 提示 逐 项 进行 修 
( 改 。 图 4-16 是 我 们 进行 优化 后 的 页 面 。 
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到 目前 为 止 ， 我 们 基于 CM 部 署 的 СОН 大 数据 平台 就 搭建 起 来 了 。 


4.4.2 对 Hive、HBase 执行 简单 操作 


下 面 我 们 对 Hive、HBase 执行 简单 操作 ， 确 保 Kylin 依赖 的 环境 没有 问题 。 另 外 需要 说 明 的 
是 ， 我 们 后 续 会 给 Kylin 单独 部 署 一 套 HBase 集群 环境 。 


1. Hive 简单 操作 


(1) 创建 数据 库 和 表 并 导入 本 地 数据 ， 如 图 4-17 所 示 。 












яш — mars 
сэ] 


ging initialized using configuration іа Jjar:file:/opt/cloudera/parcela/CDH-5.7.0-1.cdns-7.0.po.45/Jara/nive-common-1.1.0-cdn5.7.0.jar| 
ING: Hive CLI is deprecated and migration to Beeline is recommended. 

ive> [create database hellokylin;| 

K 


ime taken: 1.698 seconds 
ауе» [use пе окуп; 
к 

taken: 0.042 seconda 
зле» [ereate tabis хуііа Па int name string) rov Zormat delimited Zisids terminated by 17 lines terminated Ey "Vn stored as кеха 
к 





пле taken: 0.43 зесопаз 
1ve> [oad data local їпБатн r7vaF7ITB/BadSSp-BSFs7BeIISEyYIIn-EXE' into table КҮТҮН? ] 
ading data to table пе1їокуїїп.куїїп 

able hellokylin.kylin stetə: [numFiles-1, totalSize-32] 

K 








ime raken: 0.77 seconds 
ive> pelect id, name from Күүнү 
K 


Hadoop 





图 4-17 


其 中 /var/lib/hadoop-hdfs/hellokylin.txt 是 自己 构造 的 数据 文件 ， 里 面 的 每 一 行 有 两 列 ， 以 竖 线 
分 隔 。 


(2) 验证 MapRduce 
上 面 直 接 查 表 数 据 操作 是 不 会 提交 MapReduce 程序 的 ， 我 们 这 里 使 用 group by 操作 ， 执 行 
MapReduce 程序 ， 如 图 4-18 所 示 。 


EFT TE rd, count ES a group by 
егу ID = hdfs_20160731094343_e435a7a0-24b3-4d22-931d-3527ff283b77 
otal jobs = 1 
[Launching Job 1 out of 1 
umber of reduce tasks not specified. Estimated from input data size: 1 
[п order to change the average load for a reducer (in bytes): 
set hive.exec.reducers.bytes.per.reducer=<number> 
[n order to limit the maximum number of reducers: 
set hive.exec.reducers.max=<number> 
[n order to set a constant number of reducers: 
set mapreduce.job.reduces=cnumber> 
[Starting Job = job_1469373167347_0041, Tracking URL = [ħttp://SZB-L0023777:8088/proxy/application_ 1469373167347_0041/ 
[Кї11 Command = /орс/с1сидега/рагсе1з/Срн-5.7.0-1.саһ5.7-0-р0.45/116/ћаіоор/Ьіп/һаіоор job -kill job_1469373167347_0041 
ladoop job information for Stage-1: number of mappers: 1; number of reducers: 1 
[2016-07-31 09:51:05,179 Stage-1 map = 0%, reduce = 0: 
|2016-07-31 09 665 Scage-1 шар = 100%, reduce = 0%, Cumulative СРО 1.77 sec 
[2016-07-31 09:51:22,097 Stage-1 шар = 100%, reduce = 100%, Cumulative СРО 3.8 sec 
pReduce Total cumulative СРО time: 3 seconds 200 msec 
RCR 
PReduce Jobs Launched: 

































Erage-stage-1: Мар: 1 Reduce: 1 Cumulative CPU: 3.8 sec НЕЗ Read: 6860 HDFS Write: 16 SUCCESS 
[Total MapReduce СРО Time Spent: 3 seconds 200 msec 








[рк 
a 1 

Я 1 

9 1 

|a 1 

[time taken: 30.231 seconds, Fetched: 4 row(s) 
þive> Ш 





图 4-18 
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根据 执行 过 程 ， 可 以 看 出 MapReduce 程序 有 一 个 mapper 和 一 个 reducer 操作 。 
2. HBase 简单 操作 
(1) 创建 表 kylin 并 插入 一 条 记录 ， 如 图 4-19 所 示 。 


hbase (main) :001:0> create 'kylin','info' 
0 row(3) in 2.9560 seconds 


=> Hbase::Table - kylin 
hbase (main) :002:0> put 'kylin','100001','info:id','1' 
0 row(s) in 0.1800 seconds 


hbase (main) :003:0> put 'kylin','100001','"info:name','Hadoop' 
0 row(s) in 0.0120 seconds 





图 4-19 
(2) 查看 表 数 据 ， 总 行 数 和 表 结 构 ， 如 图 4-20 所 示 。 


hbase (main) :007:0> scan 'kylin' 


ROW COLUMN+CELL 
100001 column=info:id, timestamp=1469930920802, value=1 
100001 column=info:name, timestamp=1469930934184, value=Hadoop 


1 row(s) in 0.0210 seconds 


hbase (main) :008:0> count 'kylin' 
1 гом(з) іп 0.0410 seconds 


=> 1 

hbase (main) :009:0> describe 'kylin' 
Table kylin is ENABLED 

kylin 

COLUMN FAMILIES DESCRIPTION 

{НАМЕ => 'info', DATA_BLOCK_ENCODING => 'NONE', BLOOMFILTER => "ВОЙ", REPLICATION_SCOPE => '0', VERSIONS => '1', CON 
TED CELLS => 'FALSE', BLOCKSIZE => '65536', ІМ MEMORY => 'false', BLOCKCACHE => 'true') 
1 row(s) in 0.0620 seconds 


hbase (main) :010:0> Ё 








图 4-20 


好 了 ， 咱 们 就 简单 对 Hive 和 HBase 介绍 到 此 ， 因 为 我 们 本 书 的 重点 是 深入 研究 Kylin。 
下 一 章 我 们 将 基于 CDH 来 部 署 Kylin 的 大 数据 分 析 平 台 。 
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第 5 章 
使 用 Kylin 构 建 企 业 大 数据 分 析 
平台 的 4 种 部 署 万 式 


本 节 重 点 介绍 如 何 使 用 Kylin 来 构建 大 数据 分 析 平 台 。 

根据 官网 介绍 ， 其 实 部 署 Kylin 非常 简单 ， 称 为 非 侵入 式 安 装 ， 也 就 是 不 需要 去 修改 已 有 的 
Hadoop 大 数据 平台 。 你 只 需要 根据 环境 下 载 适 合 的 Kylin 安装 包 ， 选 择 一 个 Hadoop 节点 部 署 即 
可 ，Kylin 使 用 标准 的 Hadoop API 跟 各 个 组 件 进行 通信 ， 不 需要 对 现 有 的 Hadoop 安装 额外 的 
Agent。 





Kylin 部 署 的 架构 


Kylin 部 署 的 架构 是 一 个 分 层 的 结构 ， 如 图 5-1 所 示 。 








可 视 化 层 ¿ie tobleou | ( Tableau ) (EwceVPoweral 内 Saku }( ~ } 











Apache Kylin | Daa | | би | | Dana | 
Cube Cube ИШ Cube 












































Ñ OLAP) 
( HBase )( нме (Í MapReduce ) ( Spark ) 
大 数据 平台 З а 
Ñ masi 
( WEB [ Fume ] [ sqoop: | ттт Ë] ) 
[ Ей — ( orade ) ( mysa ) (вах) ( … ) ) 
图 5-1 


最 底层 是 数据 来 源 层 ， 我 们 可 以 通过 Sqoop 等 工具 将 数据 迁移 到 HDFS 分 布 式 文件 系统 。 
Kylin 依赖 Hadoop 平台 ， 包 括 组 件 HBase、Hive、MapReduce 等 ， 即 Kylin 运行 在 Hadoop 构建 





基于 Apache Kylin 构建 大 数据 分 析 平 台 


的 大 数据 平台 层 之 上 。Kylin 分 析 平 台 部 署 好 之 后 ， 各 业务 系统 连接 Kylin 做 相关 计算 时 ，Kylin 
就 把 压力 转移 到 Hadoop 平台 上 做 并 行 计 算 和 查询 。 


5.2 купп 的 四 种 典型 部 署 方式 


对 于 Kylin 的 部 署 架 构 ， 一 般 有 四 种 典型 部 署 方式 ， 从 简单 到 复杂 。 
1. 第 一 种 方式 
单 实例 部 署 方 式 (Single instance) 。 在 Hadoop 集群 的 一 个 节点 上 部 署 ， 然 后 启动 即 可 。 建 


模 人 员 通 过 Kylin Web 登录 ， 进 行 建 模 和 创建 Cube。 业 务 分 析 系统 等 发 送 SQL 到 Kylin, Kylin 
查询 Cube 并 返回 结果 。 





这 种 部 署 最 大 特点 是 简单 快捷 ， 而 是 单 点 ， 如 果 并 发 请 求 比较 多 (QPS > 50) ， 单 台 Kylin 


节点 将 成 为 瓶颈 ， 所 以 推荐 使 用 集群 (Cluster) 部 署 方式 。 


2. 第 二 种 方式 
Kylin 部 署 集群 方式 相对 来 说 也 简单 ， 只 需要 增加 Kylin 的 节点 数 ， 因 为 Kylin 的 元 数据 


(Metadata) 是 存储 在 HBase 中 ， 只 需要 在 Kylin 中 配置 ， 让 Kylin 的 每 个 节点 都 能 访问 同一 个 
Metadata 表 就 形成 了 Kylin 集群 (kylin.metadata.url 值 相 同 ) ， 并 且 Kylin 集群 中 只 有 一 个 Kylin 
实例 运行 任务 引擎 (kylin.servermode=all) ， 其 他 Kylin 实例 都 是 查询 引擎 〈kylin.servermode 
=query) 模式 。 通 常 可 以 使 用 LDAP 来 管理 用 户 权限 。 


为 了 实现 负载 均衡 ， 即 将 不 同 用 户 的 访问 请 求 通过 Load Balancer HRA) 〈 比 如 


lvs, Nginx 等 ) 分 发 到 每 个 Kylin 节点 ， 保 证 Kylin 集群 负载 均衡 。 对 于 负载 均衡 器 可 以 启用 
SSL 加 密 ， 安 装 防火 墙 ， 对 外 部 用 户 只 用 暴露 负载 均衡 器 的 地 址 和 端口 号 ， 这 样 也 保证 Kylin £ 
统 对 外 部 来 说 是 隔离 的 。 


我 们 的 生产 环境 中 使 用 的 LB 是 Nginx， 用 户 通过 LB 的 地 址 访问 Kylin 时 ，LB 将 请 求 通过 


负载 均衡 调度 算法 分 发 到 Kylin 集群 的 某 一 个 节点 ， 不 会 出 现 单 点 问题 ， 同 时 如 果 某 一 个 Kylin 
节点 挂 掉 了 ， 也 不 会 影响 用 户 的 分 析 。 
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这 种 方式 也 不 是 完美 的 ， 但 是 一 般 场景 下 是 可 以 满足 的 。 
3. 第 三 种 方式 
Kylin 非常 适合 读 写 分 离 ， 原 因 是 Kylin 的 工作 负载 有 两 种 : 


@ Cube 的 计算 ， 调 用 MapReduce 进行 批量 计算 ， 而 且 延 时 很 长 的 计算 ， 需 要 密集 的 
CPU 和 IO 资源 。 

ө 在 线 的 实时 查询 计算 ， 就 是 Cube 计算 结束 后 进行 查询 ， 而 且 都 是 只 读 的 操作 ， 要 求 响 
应 快 ， 延 迟 低 。 


通过 分 析 ， 我 们 发 现 第 一 种 Cube 的 计算 会 对 集群 带 来 很 大 负载 ， 从 而 会 影响 在 线 的 实时 查 
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询 计 算 ， 所 以 需要 做 读 写 分 离 。 如 果 你 的 环境 ， 基 本 都 是 利用 夜间 执行 Cube 计算 ， 白 天 上 班 时 
间 进 行 查询 分 析 ， 那 么 可 以 考虑 采用 第 三 种 部 署 方式 。 

其 实 Kylin 也 很 容易 部 署 这 种 组 网 方式 。 你 需要 单独 部 署 一 套 HBase 集群 ， 在 部 署 Kylin 
IJ, Hadoop 配置 项 指向 运算 的 集群 ，HBase 的 配置 项 指向 单独 部 署 的 HBase 集群 。 说 白 了 ， 就 
是 Hadoop 和 HBase 集群 的 分 离 。 

这 种 部 署 方式 通常 有 以 下 步骤 : 


(1) 分 布 部 署 Hadoop (MapReduce 计算 集群 ， 以 下 简称 计算 ) 集群 和 HBase (HDFS 存 
储 ， 以 下 简称 存储 ) 集群 ， 两 套 集群 环境 的 Hadoop 核心 版 本 要 一 致 ， 分 别 有 各 自 的 HDFS、 
Zookeeper 等 组 件 。 

(2) 在 准备 运行 Kylin 的 服务 器 上 ， 安 装 和 配置 Hadoop〈 计 算 ) 集群 的 客户 端 ; 通过 
hadoop、hdfs、hive、mapred 等 命令 ， 可 以 访问 Hadoop 集群 上 的 服务 和 资源 。 

G) 在 准备 运行 Kylin 的 服务 器 上 ， 安 装 和 配置 HBase (存储 ) 集群 的 HBase 客户 端 ; 10 
过 hbase 命令 ， 可 以 访问 和 操作 HBase 集群 。 

(4) 确保 Hadoop (计算 ) 集群 和 HBase 存储 ) 集群 的 网 络 互 通 ， 且 无 须 额 外 验证 ， 可 以 
从 Hadoop〔 计 算 ) 集群 的 任 一 节点 上 ， 复 制 文件 到 HBase〈 存 储 ) 集群 的 任 一 节点 。 

(5) 确保 在 准备 运行 Kylin 的 服务 器 上 ， 通 过 HDFS 命令 行 加 上 HBase 集群 NameNode 地 
址 的 方式 〈 比 如 hdfs dfs -ls hdfs://pro-jsz800000:8020/) ， 可 以 访问 和 操作 存储 集群 的 HDFS。 

(6) 为 了 提升 Kylin 查询 响应 效率 ， 准 备 运行 Kylin 的 服务 器 ， 在 网 络 上 应 靠近 HBase 集 
群 ， 以 确保 密集 查询 时 的 网 络 低 延 迟 。 

(7) 编辑 confikylin.properties， 设 置 kylin.hbase.cluster.fs 为 HBase 集群 HDFS 的 URL， 例 
如 : kylin.hbase.cluster.fs=hdfs://pro-jsz800000:8020。 

(8) 重启 Kylin 服务 实例 。 

4. 第 四 种 方式 

前 面 三 种 方式 ， 应 该 是 绝 大 多 数 公司 或 个 人 研究 采用 的 部 署 方 式 ， 其 实 还 有 一 种 更 高 级 的 部 
署 是 Staging 和 production 多 环境 的 部 署 。 其 实 做 开发 的 一 般 都 会 经 历 这 样 的 环境 ， 我 们 一 个 需 
求 完成 后 ， 首 先 会 进行 开发 环境 测试 ， 然 后 部 署 到 Staging (可 以 理解 为 Production 生产 环境 的 
镜像 ， 或 者 测试 环境 ) ， 最 后 没有 问题 后 才 会 发 布 到 Production 生产 环境 ， 这 样 做 可 以 避免 不 当 
的 设计 导致 对 生产 环境 的 破坏 。 

使 用 这 种 方案 的 场景 : 


假如 一 个 新 用 户 使 用 Kylin， 可 能 他 对 Cube 设计 不 是 很 熟悉 ， 创 建 了 一 个 非常 不 好 的 
Cube， 导 致 Cube 计算 时 产生 大 量 的 不 必要 的 运算 ， 或 者 查询 花费 的 时 间 很 长 ， 会 对 其 他 业务 造 
成 影响 。 我 们 不 希望 这 个 有 问题 的 Cube 能 进入 生产 环境 ， 那 么 就 需要 建立 一 个 Staging 环境 ， 
或 者 成 为 QA 的 环境 。 

Kylin 提供 了 一 个 工具 ， 几 分 钟 就 可 以 将 一 个 Cube 从 Staging 环境 迁移 到 Production 环境 ， 
不 需要 在 新 环境 中 重新 build。 因 为 在 生产 环境 的 Cube， 将 不 允许 修改 ， 只 能 做 增 量 的 build。 这 
样 做 保证 了 Staging 和 Production 的 分 离 ， 保 证 发 布 到 Production 上 的 Cube 都 是 经 过 评审 过 的 ， 
所 以 对 Production 环境 不 会 造成 不 可 预料 的 影响 ， 从 而 保证 了 Production 环境 的 稳定 。 
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< 单独 为 Kylin 部 署 HBase 集 群 > 


如 果 你 的 CDH 大 数据 平台 的 HBase 集群 已 经 为 其 他 部 门 提供 服务 ， 为 了 保证 Kylin 读 写 
Cube 数据 性 能 的 稳定 ， 你 打算 给 Kylin 单独 部 署 一 套 HBase 集群 环境 ， 这 也 是 非常 推荐 的 做 
a 

如 果 朋友 们 不 想 单独 部 署 一 套 HBase 集群 ， 打 算 使 用 CDH 5.7.0 自 带 的 HBase 集群 ， 那 么 
可 以 跳 过 本 章 ， 直 接 进 入 下 一 章 学 习 。 或 者 朋友 们 可 以 直接 看 本 章 的 最 后 内 容 ， 介 绍 HBase 的 
基本 操作 。 

上 一 节 我 们 已 经 介绍 了 使 用 Kylin 构建 企业 级 大 数据 分 析 平 台 的 4 种 部 署 方式 后 ， 本 节 将 正 
式 进入 搭建 Kylin 环境 的 实战 环节 ， 人 迫不及待 了 吧 。 为 了 方便 更 广大 朋友 的 实战 体验 ， 我 们 选择 
第 三 种 方式 ， 将 Kylin 搭建 在 已 有 的 СОН Hadoop 集群 上 面 ， 但 是 必须 说 明 的 是 ， 我 们 的 环境 没 
有 采用 HBase 和 Hadoop 分 离 部 署 的 方式 ， 而 是 将 HBase 部 署 在 已 有 的 CDH Hadoop 平台 上 
面 ， 然 后 我 们 做 了 控制 资源 分 配 的 方案 ， 满 足 现 有 的 作业 要 求 。 如 果 条 件 允 许 的 话 ， 最 佳 实践 还 
是 单独 部 署 一 套 HBase 集群 ， 独 立 于 Hadoop 集群 。 

开始 进入 部 署 HBase 集群 环境 ， 以 及 简单 介绍 一 下 HBase 的 基本 操作 ， 但 不 会 太 深入 ， 毕 
竞 我 们 本 书 的 重点 还 是 要 探讨 Kylin 的 世界 ， 建 议 朋 友 可 以 阅读 《HBase 权威 指南 》。 

在 正式 部 署 HBase 集群 之 前 ， 说 明 几 点 : 


© 为 了 统一 管理 ， 我 们 将 Kylin 和 НВаѕе 都 部 署 到 Kylin 用 户 下 面 。 

HBase 的 端口 号 和 相关 路 径 进行 调整 ， 避 免 和 CDH 的 HBase 默认 的 端口 号 冲突 。 

如 果 资 源 允 许 的 话 ， 建 议 单独 申请 新 机 器 部 署 HBase 集群 。 

Hive 不 需要 单独 部 署 ， 使 用 СОН 集成 的 。 

选择 的 HBase 版 本 号 为 1.1.5 版 本 ， 如 果 你 部 署 时 HBase 有 最 新 的 1.1.x 版 本 ， 那 么 就 
选择 最 新 的 吧 ， 可 以 解决 一 些 Bug。 


为 了 和 Kylin 最 新 版 本 以 及 CDH 5.7.0 包含 的 Hadoop 和 Hive 有 比较 好 的 兼容 ， 目 前 最 好 选 
# HBase 1.1.x 版 本 。 

下 面 详解 部 署 HBase 集群 环境 。 

1. 步骤 一 : 为 HBase 和 Kylin 创建 统一 的 Linux 管理 用 户 

这 一 步 需要 在 所 有 的 HBase 节点 上 ， 为 НВаѕе FI Kylin 创建 统一 的 Linux 管理 用 户 。 








PB # 后 面 的 命令 表示 使 用 root 用 户 执行 的 命令 ，$ 后 面 的 命令 代表 使 用 kylin 用 户 执行 的 命令 。 | 
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2. 步骤 二 : 创建 信任 关系 


在 Linux 不 同 机 器 中 创建 信任 关系 的 方式 有 很 多 种 ， 感 兴趣 的 朋友 可 以 自主 到 网 上 搜索 。 我 
之 前 也 开发 了 一 些 工具 ， 只 要 指定 机 器 的 IP 或 主机 名 列表 (包括 系统 用 户 名 和 密码 ) 就 可 以 自 
动 在 集群 之 间 创 建 信任 关系 。 由 于 代码 比较 多 ， 本 书 中 展示 不 太 方便 ， 感 兴趣 的 朋友 可 以 联系 
我 ， 后 续 我 也 会 开源 到 github， 或 者 也 可 以 关注 我 的 CSDN 博客 。 


这 里 我 们 使 用 简单 的 方式 来 创建 信任 关系 ， 如 下 几 个 步骤 ， 
为 了 演示 方便 ， 假 如 HBase 有 2 个 节点 ，192.168.1.128 (gpmaster) 和 192.168.1.129 
(gpseg) 。 


(1) 所 有 HBase 集群 节点 登录 kylin 用 户 。 


然后 一 直 按 回 车 键 即 可 ， 最 终 会 在 kylin 用 户 产生 一 个 .ssh 目录 ， 里 面包 含 密 钥 和 公 钥 ， 如 
下 列 出 文件 : 


(2) 将 192.168.1.128 的 公 钥 通 过 ssh-copy-id 命令 复制 到 192.168.1.129。 


执行 上 面 的 命令 ， 根 据 提示 可 能 需要 输入 yes 和 必须 输入 192.168.1.129 的 kylin 用 户 密码 ， 
如 下 所 示 : 





45 


基于 Apache Kylin 构建 大 数据 分 析 平 台 





(з) 免 密 码 登录 。 
使 用 ssh 尝试 免 密码 登录 192.168.1.129 的 kylin 用 户 : 





(4) 如 果 你 还 希望 192.168.1.129 可 以 免 密码 登录 到 192.168.1.128 的 kylin 用 户 ， 再 次 使 用 
上 面 同 样 的 方法 。 


这 种 方法 的 好 处 是 ， 不 需要 手动 复制 公 钥 文件 和 配置 authorized keys 文件 ， 都 是 命令 自动 
完成 的 。 

有 的 朋友 喜欢 将 所 有 节点 的 公 钥 全 部 加 入 到 一 个 文件 ， 然 后 再 复制 到 所 有 节点 用 户 下 
的 .ssh/authorized_keys 文件 中 。 


3. 步骤 三 : 下 载 并 安装 HBase ( 选择 HBase Master 节点 操作 ， 比 如 SZB-L0023777 ) 
如 果 你 的 Linux 节点 可 以 连接 外 网 ， 那 么 可 以 在 kylin 用 户 下 面 直接 使 用 wget 方式 下 载 : 


如 果 无 法 连接 外 网 那么 可 以 从 外 部 下 载 好 之 后 上 传 到 Linux 节点 的 kylin 用 户 下 面 ，HBase 
的 官网 为 ，http:/hbase.apache.org。 
对 HBase 的 安装 包 进 行 解压 缩 以 及 创建 软 链接 : 





查看 kylin 用 户 家 目录 : 





4. 步骤 四 : 配置 HBase 集群 环境 ( 选择 HBase Master 节点 操作 ， 比 如 SZB-L0023777 ) 


СТ) 配置 hbase-env.sh 





第 6 章 单独 为 Kylin 部 署 HBase 集群 








(2) 配置 regionservers 
将 HBase 集群 的 RegionServers 都 加 入 到 regionservers 文件 中 如 下 : 








这 里 说 明 一 下 ， 其 实 这 些 主机 名 和 对 样 的 IP 地 址 都 需要 加 入 到 主机 的 /etc/hosts 文件 中 ， 因 
为 我 们 是 基于 СОН 环境 搭建 的 ， 其 实 都 已 经 配置 好 了 ， 这 里 给 大 家 再 提 一 下 : 





G) 配置 HBase 的 核心 配置 文件 hbase-site.xml 
这 里 我 配置 的 内 容 比较 多 ， 有 些 都 是 端口 号 配置 ， 因 为 要 避免 和 已 有 的 CDH 的 HBase 集群 
的 端口 号 冲突 。 如 果 你 的 CDH 环境 没有 部 署 HBase 集群 ， 那 么 只 要 基本 的 HBase 配置 项 就 可 以 了 。 
完整 配置 内 容 如 下 (有 点 多 ， 请 朋友 们 谅解 〉: 
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配置 中 核心 的 部 分 内 容 包括 HBase 的 数据 根 目录 、HBase 使 用 的 ZooKeeper 集群 主机 地 址 
列表 和 端口 号 、HBase 在 ZooKeeper 中 的 znode 节点 目录 等 。 


(4) 配置 HBase 环境 变量 
在 kylin 的 家 目录 的 .bashre 加 入 如 下 内 容 : 


执行 source 使 环境 变量 生效 : 


验证 环境 变量 是 否 生效 : 


(5) 将 HBase 的 Master 节点 的 hbase-1.1.5 和 .bashrc 复制 到 所 有 的 其 他 HBase 集群 节点 


然后 在 每 个 节点 上 也 创建 软 链接 。 
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5. 步骤 五 : 启动 HBase 集群 


在 启动 之 前 说 一 下 ， 最 好 将 HBase Master 节点 自身 也 创建 信任 关系 。 
在 Master 节点 启动 HBase 集群 ， 如 图 6-1 所 示 。 





[Ikylin8SZB-L0023777 -]$ start-hbase.sh 
starting master, logging со /var/lib/kylin/hbase/logs/hbase-kylin-master-SZB-L0023777.out 
|SZB-L0023777: starting regionserver, logging to /var/lib/kylin/hbase/logs/hbase-kylin-regionserver-SZB-L0023777.out 





|SZB-L0023778: starting regionserver, logging со /var/lib/kylin/hbase/logs/hbase-kylin-regionserver-SZB-L0023778.out 
52В-10023780: starting regionserver, logging to /var/lib/kylin/hbase/logs/hbase-kylin-regionserver-SZB-L0023780.out 
52В-10023776: starting regionserver, logging to /var/lib/kylin/hbase/logs/hbase-kylin-regionserver-SZB-L0023776.out 
52В-10023779: starting regionserver, logging to /var/lib/kylin/hbase/logs/hbase-kylin-regionserver-SZB-L0023779.out 
(ху11п8528-10023777 -]1$ 国 
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在 Master 节点 查看 进程 ， 如 图 6-2 所 示 。 
在 RegionServer 查看 进程 ， 如 图 6-3 所 示 。 


[ку11п@52В-10023777 ~]$ јрз 

28067 Jps 

27369 HMaster [ку11п@52В-10023780 ~]$ jps 

27556 HRegionServer 23830 Jps 

[kylin@SZB-L0023777 ~]$ 23027 HRegionServer 
lin@SZB-L0023777 ~]$ [kylin@SZB-L0023780 ~]$ 





6-2 图 6-3 


如 果 启 动 有 问题 ， 你 也 可 以 查看 HBase 的 日 志 定位 问题 ， 日 志 都 位 于 ${HBASE_HOME} 
/logs 目录 下 面 。 

当然 ， 我 们 可 以 通过 hbase-site.xml 配置 文件 中 的 hbase.masterinfo.port 端口 号 来 访问 
Master， 如 图 6-4 所 示 。 


© Di0.20,17.244;36010/masr 





È IBASE Home TableDetals Locallogs Logtevel DebigDump Меке Dump Hsase Connguration 


Master szs-L0023777 


Region Servers 


Memoy Requests Siorefies  Compactions 


ServerName Start time Requests Per Second Num. Regions 










54Ь-10023776, Sat Jul 23 14:17:12 CST 2016 0 $ 
szb-10023777, Sat Jul 23 14:17:12 CST 2016 0 2 
52р-100237: Sat Jul 23 14:17:11 CST 2016 0 0 

Sat Jul 23 14:17:12 CST2016 0 0 











Sat Jul 23 14:17:12 G: 
6-4 


也 可 以 通过 hbase-site.xml 配置 文件 中 的 hbase.regionserverinfo.port 端口 号 来 访问 每 个 
RegionServer， 如 图 6-5 所 示 。 
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€ > С | [D 10. 20. 18. 24:360 
е 











RSHE Ноте Locallogs 。 Log Level DebugDump MetrcsDump НВасе Configuration 


a 
HBAS 


RegionServer szb-l0023780,36020,1469254632125 


Server Metrics 








Base Memory Requests МАБ Siorefies Queues 
Requests Per Second Num. Regions Block locality Block locality (Secondary replicas) Slow WAL Append Count 
0 1 100 o 0 

图 6-5 


6. 步骤 六 : 简单 使 用 HBase 
(1) 通过 shell 方式 登录 hbase 服务 器 ， 并 查看 HBase 集群 状态 ， 如 图 6-6 所 示 。 


[kylin@SZB-L0023777 ~]$ hbase shell 

SLF4J: Class path contains multiple SLF4J bindings. 

ISLF4J: Found binding іп [jar:file:/var/lib/kylin/hbase-1.1.5/lib/slf4j-l0g4j12-1.7.5.jar! 
ISLF4J: Found binding іп [jar:file:/opt/cloudera/parcels/CDH-5.7.0-1.cdh5.7.0.p0.45/jars/s 
ISLF4J: See http://www.s1f4j.org/codes.html#multiple_bindings for an explanation. 

SLF4J: Actual binding із of type [org.slf4j.impl.Log4jLoggerFactory] 

|НВазе Shell; enter 'help<RETURN>' for list of supported commands. 

[Type "exit<RETURN>" to leave the HBase Shell 

Version 1.1.5, r239b80456118175b340b2e562a5568b5c744252e, Sun May 8 20:29:26 PDT 2016 


Ihbase (main) :001:0> status 
|5 servers, 0 dead, 0.6000 average load 








hbase (main) :002:0> " 


图 6-6 


(2) 创建 表 并 添加 数据 
下 面 示 例 中 我 们 做 了 几 个 操作 ， 如 图 6-7 所 示 ， 说 明 如 下 : 
© 创建 一 张 mytable 的 表 ， 并 包括 两 个 列 族 。 
@ 我 们 创建 了 一 行 数据 ，rowkey 为 P000000000000001。 我 们 往 baseinfo 的 列 族 中 增加 四 列 
数据 ，extrainfo 列 族 增加 一 列 数据 。 
© 使 用 scan 扫描 mytable 整 张 表 的 数据 。 
@ 使 用 count 统计 mytable 表 有 多 少 行 数据 。 
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Pbase (main) :001:0> create 'mytab; 
0 row(s) in 1.8290 seconds 





|=> Ebase::Table - mytable 
[hbase (main) :002:0> put 'mytable','P000000000000001','baseinfo:name','Jack' 
0 гон(з) in 0.3670 seconds 


разе (main) :003:0> put "шусар1е", 'Р000000000000001', "Базеіпёо:аде", '21' 
0 гом(з) їп 0.0220 seconds 





[hbase (main) :004:0> put 'mytable', 'Р000000000000001' 
0 гом(з) in 0.0290 seconds 


baseinfo:tel', '18000000000' 
[hbase (main) :005:0> put 'mytable','P000000000000001','baseinfo:identity_card','3201141990121290e7' 
0 row(s) in 0.0070 seconds 


[hbase (main) :006:0> put 'mytable','P000000000000001','extrainfo:company','Dream' 
0 гом(з) їп 0.0130 seconds 


|hbase (main) :007:0> scan 'mytable' 





|вон 
в000000000000001 је, сішезтапр1469244939291, value=21 

в000000000000001 јепсісу сага, timestamp=1469245038316, уа11е=320114199012129087 
в000000000000001 јаше, сіпезсапр=1469244930798, value=Jack 

в000000000000001 1, timestamp=1469244962213, уа1це=18000000000 





в000000000000001 column=extrainfo:company, timestamp=1469245119213, value=Dream 
1 гом(з) in 0.0760 seconds 


[hbase (main) :008:0> count 'mytable' 
[1 row(s) in 0.0610 seconds 


-> 1 
[base (main) :009:0> H 








图 6-7 


(3) 查询 相关 操作 
@ 查询 一 行 所 有 数据 ， 如 图 6-8 所 示 。 


base (main) :024:0> get 'mytable','P000000000000001' 

OLUMN CELL 

baseinfo:age timestamp=1469248999785, value=21 
timestamp=1469248999957, value=320114199012129087 
timestamp=1469248999703, value=Jack 
timestamp=1469248999833, value=18000000000 

extrainfo:company timestamp=1469249001048, value=Dream 

E row(s) in 0.0890 seconds 





图 6-8 


timestamp=1469248999785, value=21 


timestamp=1469248999957, value=320114199012129087 
timestamp=1469248999703, value=Jack 

baseinfo:tel timestamp=1469248999833, value=18000000000 

4 row(s) in 0.0360 seconds 





图 6-9 


@ 获取 指定 行 、 列 族 和 列 的 所 有 数据 ， 如 图 6-10 所 示 。 


Ihbase (main) :026:0> get 'тусар1е', 'Р000000000000001', 'baseinfo:name' 

COLUMN CELL 

baseinfo:name timestamp=1469248999703, value=Jack 
1 row(3) in 0.0150 seconds 











图 6-10 
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(4) 更 新 相关 操作 ， 如 图 6-11 所 示 。 


hbase (main) :026:0> get 'mytable','P000000000000001','baseinfo:name' 
COLUMN CELL 

baseinfo:name timestamp=1469248999703, value=Jack 
1 гом(з) іп 0.0150 seconds 


hbase (main) :027:0> put 'тусар1е', 'Р000000000000001', "разеіпёо: пате', 'Tom' 
0 row(3) in 0.0100 seconds 


hbase (main) :028:0> get 'mytable', 'P000000000000001', 'baseinfo:name' 

COLUMN CELL 

baseinfo:name timestamp=1469249263686, value=Tom 
1 row(3) in 0.0110 seconds 








hbase (main) :029:0> 


图 6-11 








在 创建 表 的 时 候 ， 可 以 指定 列 族 的 多 版 本 信息 ， 比 如 将 VERSIONS 设 为 3， 那 么 在 第 一 次 
put 值 后 连续 更 新 两 次 不 同 的 值 ， 三 个 值 都 会 保留 下 来 ， 如 果 查 询 不 指定 版 本 数 的 话 ， 默 认 
| 返回 最 新 时 间 的 值 。 演 示 结果 如 图 6-12 所 示 。 








hbase (main) :030:0> create 'multi_vesions',{ NAME => 'baseinfo', VERSIONS => 3 } 
0 row(s) in 1.2590 seconds 


=> Hbase::Table - multi_vesions 
hbase (main) :031:0> put 'multi_vesions','10000','baseinfo:name','Jack' 
0 row(s) in 0.0410 seconds 


hbase (main) :032:0> put 'multi_vesions', '10000', "Базеіпёо:пате', 'Tom' 
0 row(s) in 0.0270 seconds 


hbase (main) :033:0> put "тџ1сі уезіопз', '10000', 'baseinfo:name', "Магк' 
0 row(s) in 0.0340 seconds 


hbase (main) :034:0> get 'multi_vesions', '10000', 'baseinfo:name' 

COLUMN CELL 

baseinfo:name timestamp=1469249657377, value=Mark 
1 row(s) in 0.1020 seconds 


hbase (main) :035:0> get 'multi_vesions','10000', {COLUMN => 'baseinfo:name', VERSIONS => 3} 


COLUMN CELL 

baseinfo:name timestamp=1469249657377, value=Mark 
baseinfo:name timestamp=1469249647858, value=Tom 
baseinfo:name timestamp=1469249643546, value=Jack 


3 row(s) in 0.0360 seconds 








图 6-12 


(5) 删除 相关 操作 
下 面 我 们 演示 如 何 删除 一 个 列 族 中 的 一 列 数据 ， 或 者 一 个 列 族 ， 或 者 整 张 表 。 


@ 删除 一 列 数据 ， 如 图 6-13 所 示 。 
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ase (main) :035:0> scan 'mytable' 





COLUMN+CELL 
P000000000000001 Column=baseinfo:age, timestamp=1469244939291, value=21 
P000000000000001 column=baseinfo:name, timestamp=1469244930798, value=Jack 
P000000000000001 column=baseinfo:tel, timestamp=1469244962213, value=18000000000 
P000000000000001 column=extrainfo:company, timestamp=1469245119213, value=Dream 
[1 гом(з) in 0.0400 seconds 
图 6-13 


@ 删除 一 个 列 族 





在 删除 列 族 之 前 先 disable 表 ， 然 后 将 列 族 标记 为 delete， 再 enable 表 ， 最 后 可 以 查看 数据 


或 表 结 构 验 证 一 下 ， 如 图 6-14 所 示 演示 过 程 。 


hbase (main) :062:0> disable 'mytable' 
0 row(s) in 2.2490 seconds 


hbase (main) :063:0> alter 'mytable', МАМЕ => 'extrainfo', METHOD => 'delete' 
Updating all regions with the new schema... 

1/1 regions updated. 

Done. 

0 row(s) in 1.9060 seconds 


[hbase (main) :064:0> enable 'mytable' 
0 row(s) in 1.3620 seconds 


hbase (main) :065:0> scan 'mytable' 
Row 





COLUMN+CELL 
P000000000000001 column=baseinfo:age, timestamp=1469244939291, value=21 
P000000000000001 column=baseinfo:name, timestamp=1469244930798, value=Jack 
P000000000000001 columnsbaseinfo:tel, timestamp=1469244962213, value=18000000000 


1 row(s) in 0.0270 seconds 


hbase (main) :066:0> describe 'mytable' 


{НАМЕ => 'baseinfo', DATA_BLOCK_ENCODING => 'NONE', BLOOMFILTER => 'ROW', REPLICATION_SCOPE => '0', VERSIONS => 
| CELLS => 'FALSE', BLOCKSIZE => '65536', IN_MEMORY => 'false', BLOCKCACHE => 'true') 
1 row(s) in 0.0270 seconds 





[hbase (main) :067:0> Ë 
图 6-14 


@ 删除 表 





我 们 可 以 执行 is_enabled 看 一 下 表 有 没有 被 disable， 如 果 表 为 enable 的， 则 删除 表 之 前 必须 


要 disable， 和 否则 无 法 删除 。 
最 后 我 们 执行 list 查看 表 是 否 存在 ， 如 图 6-15 所 示 。 


0 гоы(з) in 0.0180 seconds 


[hbase (main) :068:0> disable 'mytable' 
0 row(s) in 2.2510 seconds 


hbase (main) :069:0> drop 'mytable' 
0 row(s) in 1.2650 seconds 


hbase (main) :070:0> list 
TABLE 
0 row(s) in 0.0070 seconds 


=> [] 
[hbase (main) :071:0> 





6-15 
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上 一 章节 ， 我 们 已 经 为 Kylin 搭建 了 一 套 独 立 于 СОН 平台 的 HBase 集群 环境 ， 并 演示 了 
НВазе 的 相关 操作 ， 本 章 将 搭建 Kylin 企业 级 的 大 数据 分 析 平台 。 


7.1 BBS Kylin 的 先决 条 件 


为 了 兼容 新 搭建 的 HBase 集群 环境 ， 我 们 选择 Kylin 稳定 版 本 为 : apache-kylin-1.5.2.1- 
HBasel.x-bin.tar.gz (截至 目前 ，Kylin 最 新 版 本 为 1.5.3， 后 面 章节 会 实战 升级 到 最 新 版 本 〉。 
下 载 地 址 为 : 


这 里 需要 注意 : 如 果 你 计划 在 CDH 5.7.0 环境 上 部 署 Kylin 集群 环境 的 话 ， 那 么 建议 选择 的 
版 本 为 : apache-kylin-1.5.2.1-cdh5.7-bin.tar.gz， 这 是 为 了 和 CDH5.7.0 自 带 的 HBase 版 本 号 HBase 
1.2.0-cdh5.7.0 保持 兼容 。 

如 果 你 的 环境 也 没有 使 用 CDH 部 署 大 数据 平台 的 话 ， 建 议 按照 官方 要 求 选择 配置 的 Hive、 
Hadoop、HBase 和 Kylin 版 本 ， 比 如 我 们 实践 过 的 版 本 组 合 : 


Hadoop: 2.6.0 
HBase: 1.1.5 
Hive: 12.1 

JDK: 1.7.0 80 


在 部 署 Kylin 之 前 ， 先 将 Kylin 的 先决 条 件 罗 列 一 下 ， 即 如 果 Kylin 正常 运行 的 话 ， 需 要 提 
前 部 署 好 以 下 客户 端 ， 如 图 7-1 所 示 。 
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Applications 
(Kylin Web, Test case or others) 





Cube Build 
Engine 


Hadoop CLI 
(hdfs, hive, hbase, mapreduce...) 


图 7-1 


Hadoop 客户 端 ， 通 过 图 7-1 可 以 看 出 kylin 的 查询 引擎 和 сире 执行 引擎 需要 通过 
Hadoop 组 件 的 接口 进行 交互 。 

Hive 客户 端 ， 通 过 hive 命令 与 Hive 进行 交互 。 

HBase 客户 端 ， 通 过 hbase 命令 与 HBase 进行 交互 。 

配置 HCAT_HOME 家 目录 。 


根据 上 面 的 先决 条 件 ， 我 们 需要 配置 一 些 环境 变量 ， 如 果 现 在 不 配置 的 话 ， 部 署 Kylin 完成 
后 执行 脚本 检查 时 也 会 提示 的 。 
因为 我 们 的 环境 除了 HBase 集群 是 自己 独立 部 署 的 ， 其 他 组 件 都 是 CDH 集成 的 ， 我 们 执行 





~]$ which hive 


[kylin@SZB-L0023777 ~]$ which hbase 
~/hbase/bin/hbase 


[kylin@SZB-L0023777 ~]$ which hdfs 
/usr/bin/hdfs 

[kylin@SZB-L0023777 ~]$ which yarn 
/Zusr/bin/yarn 

[kylin@SZB-L0023777 ~]$ Й 


图 7-2 


从 上 面 可 以 看 出 kylin 用 户 下 面 都 是 可 以 使 用 需要 的 组 件 命令 的 。 

此 外 ， 因 为 我 们 部 署 Kylin 为 集群 环境 ， 所 以 这 里 对 Kylin 的 集群 模式 进行 介绍 。 

Kylin 实例 是 无 状态 的 ， 对 于 运行 时 的 状态 保存 在 HBase 的 元 数据 中 在 kylin.properties Ж 
件 中 设置 kylin.metadata.url ) 。 对 于 考虑 负载 均衡 的 情况 ， 就 需要 部 署 多 个 Kylin 实例 ， 因 此 需 
要 共享 相同 的 元 数据 (共享 table schemas, job, cube 等 相同 的 状态 信息 ) 。 

对 于 每 一 个 Kylin 实例 ，kylin.properties 文件 中 有 一 个 参数 kylin.server.mode， 用 来 指定 每 个 
Kylin 实例 运行 的 模式 。kylin.servermode 的 值 有 三 种 : 

© 第 一 种 : job， 表 示 只 能 运行 job 引擎 。 

© 第 二 种 : query， 表 示 只 能 运行 查询 引擎 。 
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ө 第 三 种 : all， 表 示 既 可 以 运行 job 引擎 ， 也 可 以 运行 query 引擎 。 


前 两 种 是 可 以 执行 任务 的 ， 而 query 模式 下 куйа server 只 提供 元 数据 的 操作 以 及 SQL Æ 
询 ， 不 能 执行 构建 cube、 合 并 cube 之 类 的 任务 。 
需要 注意 的 是 ， 只 能 有 一 个 Kylin 实例 运行 job 引擎 (all 模式 或 job 模式 ) ， 其 他 实例 必须 


都 是 query 模式 。 
一 个 典型 的 组 网 如 图 7-3 所 示 。 
Machine 2: Machine 1: 
Mode: query Mode: ай (job + query) 
TAN ë EN Machine 3: 
О +. ° < Mode: query 
C же ON 
、、 A z А 
、、、Metadatastord кы. ы 
Hadoop, Hive, HBase 、、Read& Write | 2 
Client Machines е za 
, 
о РУСЗН ЧЫЗ EE 
Cc 





Hadoop Servers 
HBase Servers 
Hive Servers 


Cluster 


73 
WR Kylin 运行 集群 模式 时 ， 需 要 设置 多 个 Kylin REST 服务 实例 ， 可 以 通过 
${KYLIN_HOME}/conf/kylin.properties 文件 中 的 两 个 配置 参数 进行 设置 : 
© 参数 一 : kylin.rest.servers 
列 出 所 有 使 用 的 REST Web Servers， 这 将 使 一 个 Web Server 实例 和 另外 一 个 Web Server 实 


例 同步 。 比 如 设置 为 : kylin.rest.servers=SZB-L0023777:7070 、SZB-L0023778:7070 ~ SZB- 
L0023779:7070、SZB-L0023780:7070。 


© 参数 二 : kylin.server.mode 


确保 只 有 一 个 实例 配置 的 值 是 all 或 者 job， 其 他 都 为 query。 
既然 我 们 将 Kylin 部 署 为 集群 ， 那 么 对 于 用 户 访问 的 请 求 ， 我 们 就 要 分 发 到 Kylin 集群 的 任 
意 一 个 实例 上 ， 这 就 需要 部 署 负载 均衡 器 来 实现 ， 这 部 分 放 到 本 章 的 最 后 来 部 署 。 
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了 .2 ара Kylin 集群 环境 
下 面 我 们 正式 部 署 Kylin 集群 环境 。 
1. 步骤 一 : Tš Kylin 安装 包 和 解压 缩 
访问 Kylin 的 官方 网 址 ，http://kylin.apache.org， 下 载 截至 目前 稳定 的 安装 包 : 


如 果 你 的 Linux 环境 可 以 访问 外 网 ， 则 可 以 直接 下 载 : 


如 果 Linux 环境 不 能 连接 外 网 的 话 ， 那 就 下 载 好 后 再 上 传 到 HBase 集群 的 Master 节点 的 
kylin 用 户 下 面 。 
上 传 好 之 后 开始 解压 缩 : 


建立 软 链接 : 
| 9 1n -s apache-kylin=-1.5.2.1-bin куйа | 


查看 目录 结构 : 





2. 步骤 二 : 配置 Kylin 的 环境 变量 
将 如 下 内 容 加 入 Куна 用 户 家 目录 下 面 的 .bashre 文件 中 : 
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注意 : 

(1) Hadoop 方面 的 环境 变量 没有 配置 ， 这 是 因为 СОН 部 署 时 已 经 自动 将 相关 的 命令 都 
加 入 到 系统 环境 变量 里 面 了 ， 任 何 用 户 都 可 以 访问 。 

(2) 如 果 你 使 用 的 Hive、Hadoop 等 都 不 是 CDH 集成 的 ， 而 是 Apache 原生 开源 版 本 ， 那 
么 配置 的 内 容 大 概 如 下 : 


最 好 要 确保 kylin 用 户 能 够 有 权限 访问 这 些 环境 变量 。 
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з. 步骤 三 : 配置 Kylin 参数 

Kylin 的 配置 参数 文件 都 位 于 SKYLIN_HOME/conf 目录 下 面 ， 全 局 配置 文件 为 
kylin.properties, Hive 任务 的 配置 文件 为 kylin hive confxml， 适 用 于 Fast Cubing 时 的 
MapReduce 任务 的 配置 文件 为 kylin_job_conf_inmem.xml， 常 规 的 MapReduce 任务 的 配置 文件 为 
kylin_job_conf.xml。 

Kylin 最 重要 的 配置 文件 是 kylin.properties。 重 要 的 配置 项 基本 都 在 这 个 文件 里 面 ， 下 面 我 
们 详细 介绍 主要 的 配置 项 : 








(1) kylin.server.mode 

可 配置 的 三 种 模式 值 为 : all、job 和 query， 默 认为 all。job 模式 指 该 服务 仅 用 于 Cube 任务 
调度 ， 不 用 于 SQL 查询 。query 模式 表示 该 服务 仅 用 于 SQL 查询 ， 不 用 于 Cube 构建 任务 的 调 
度 。all 模式 指 该 服务 同时 用 于 任务 调度 和 SQL 查询 。 

比如 我 们 配置 SZB-L0023777 节点 的 kylin.servermode 的 值 为 all， 那 么 剩余 节点 只 能 配置 为 
query。 


(2) kylin.rest.servers 
列 出 所 有 使 用 的 Web Servers， 使 一 个 Web Server 实例 和 另 一 个 Web Server 实例 进行 同步 。 


kylin.rest.servers= SZB-L0023776:7070,SZB-L0023777:7070,SZB- 
L0023778:7070,SZB-L0023779:7070,SZB-L0023780:7070 


(3) kylin.metadata.url 
Kylin 实例 使 用 的 元 数据 存储 在 HBase 表 中 ， 默 认 的 HBase 表 为 kylin_metadata， 即 默认 配 
置 项 为 kylin.metadata.url=kylin_metadata(@hbase。 用 户 可 以 手动 修改 表 名 以 使 用 HBase 中 的 其 他 
表 保存 元 数据 。 在 同一 个 HBase 集群 上 部 署 多 个 Kylin 服务 时 ， 可 以 为 每 个 Kylin 服务 配置 一 个 
元 数据 库 URL， 以 实现 多 个 Kylin 服务 间 的 隔离 。 例 如 ，Production 实例 设置 该 值 为 
kylin metadata_prod, Staging 实例 设置 该 值 为 kylin metadata staging, fE Staging 实例 中 的 操作 
不 会 对 Production 环境 产生 影响 。 


(4) kylin.storage.url 
在 hbase 中 的 最 终 cube 文件 的 存储 URL， 默 认 值 为 hbase。 


(5) kylin.hdfs.working.dir 
Куш 工作 时 在 HDFS 上 的 目录 ， 默 认为 HDFS 上 /kylin 的 目录 下 ， 以 元 数据 库 URL 中 的 
HTable 表 名 为 子 目 录 。 例 如 ， 如 果 元 数据 库 URL 设置 为 kylin_metadata@hbase， 那 么 该 HDFS 
路 径 默 认 值 就 是 /kylin/kylin_metadata。 请 预先 确保 启动 Kylin 的 用 户 有 读 写 该 目录 的 权限 。 如 果 
你 部 署 Kylin 集群 环境 使 用 单独 的 用 户 ， 那 么 一 般 情况 下 都 是 没有 权限 操作 HDFS 分 布 式 文件 系 
统 的 ， 最 佳 做 法 是 : 先 用 HDFS 的 超级 用 户 创建 /kylin 目录 ， 然 后 修改 此 目录 的 属 主 和 属 组 为 
kylin 用 户 和 用 户 组 即 可 。 
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(6) kylin.hbase.cluster.fs 

HBase 的 集群 的 分 布 式 文件 系统 的 服务 地 址 ， 即 为 HBase 服务 的 HDFS 地 址 ， 格 式 为 
hdfs://hbase-cluster:8020。 如 果 HBase 与 Hive 和 MapReduce 运行 在 同一 个 集群 系统 ， 则 不 用 配 
A MF. 


(7) kylin.job.mapreduce.default.reduce.input.mb 
Kylin 的 MapReduce 作业 的 reduce 阶段 默认 输入 大 小 ， 默 认为 500MB。 


(8) kylinjob.retry 
Kylin 作业 error 的 最 大 尝试 次 数 ， 默 认为 0， 即 不 会 尝试 重 试 。 


(9) kylin.job.run.as.remote.cmd 
默认 值 为 false。 如 果 值 为 true IF, Job 引擎 和 Hadoop CLI 不 在 同一 个 Server 上 ， 也 就 是 指 
Shell 可 以 支持 命令 在 当前 主机 执行 或 者 在 远 端 主机 上 执行 ， 如 果 在 远 端 执行 的 话 ， 则 需要 
kylin.job.remote.cli. hostname, kylin.job.remote.cli.username 和 kylin.job.remote.cli.password 分 别 指 
定 远 程 主机 的 主机 名 、 登 录 的 用 户 名 和 密码 ， 实 现 是 通过 SSH 登录 到 远程 主机 再 执行 相应 的 
命令 。 


(10) kylin.job.concurrent.max.limit 


Kylin 作业 的 最 大 并 行 度 ， 默 认为 10. 


(11) kylin.job.hive.database.for.intermediatetable 
Kylin 作业 过 程 中 产生 的 中 间 表 (Flat Table， 或 称 为 平面 表 ) 位 于 Hive 的 数据 库 ， 默 认为 
default 数据 库 ， 可 以 根据 项 目 需要 修改 为 其 他 数据 库 ， 要 保证 有 操作 数据 库 的 权限 。 


(12) kylin.hbase.default.compression.codec 
Htable 表 的 压缩 编 解码 方式 ， 支 持 snappy, Izo, gzip 和 lz4。 默 认为 snappy。 如 果 你 的 集群 
环境 不 支持 snappy 压缩 ， 可 以 修改 为 其 他 压缩 算法 ， 比 如 使 用 gzip， 要 记得 同时 修改 其 他 配置 
文件 的 参数 值 (如 kylin hive confxm 文件 中 的 mapreduce.map.output.compress.codec 的 值 等 ) 。 


(13) kylin.hbase.region.cut 
hbase 的 region 切 分 大 小 ， 单 位 为 GB， 默认 为 5GB。 


(14) kylin.hbase.hfile.size.gb 
HBase 表 的 底层 存储 的 hfile 大 小 ， 越 小 的 hfile 大 小 ， 导 致 转换 hfile 的 MR 就 会 有 更 多 的 
reducers， 并 且 处 理 的 速度 更 快 ， 如 果 设 置 为 0， 则 取消 这 个 优化 策略 。 默 认为 2GB。 


(15) kylin.security.profile 

指定 Kylin 服务 启用 的 安全 方案 ， 可 以 是 ldap、saml、testing。 默 认 值 是 testing， 即 使 用 固 
定 的 测试 账号 (KYLIN/ADMIN) 进行 登录 。 用 户 可 以 修改 此 参数 以 接 入 已 有 的 企业 级 认证 体 
系 ， 如 ldap, saml. 
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(16) kylin.rest.timezone 
指定 Kylin 的 Rest 服务 所 使 用 的 时 区 ， 默 认 是 PST。 用 户 可 以 根据 具体 应 用 的 需要 修改 此 
参数 。 对 于 中 国 所 在 时 区 可 以 设置 为 GMT+8。 


GMT 就 是 格林 尼 治 标准 时 间 的 英文 缩写 (Greenwich Mean Time)， 是 世界 标准 时 间 。GMT+8 


是 格林 尼 治 时 间 +8 小 时 ， 中 国 所 在 时 区 就 是 GMT+8。 





(17) kylin.hive.client 
指定 Hive 命令 行 类 型 ， 可 以 是 cli 或 beeline。 默 认 是 cli， 即 hive cli。 如 果实 际 系统 只 支持 
beeline 作为 Hive 命令 行 ， 可 以 修改 此 配置 为 beeline。 


(18) kylin.hive.beeline.params 


当 使 用 beeline 作为 hive 的 client 工具 时 ， 需 要 配置 此 参数 ， 以 提供 更 多 信息 给 beeline。 比 
如 ， 如 果 需 要 这 样 使 用 beeline 来 执行 一 个 Hive QL 文件 的 话 : 


那么 ， 请 设置 此 参数 为 ; 


(19) deployenv 
指定 Kylin 部 署 的 用 途 ， 可 以 是 DEV. QA 或 PROD。 默 认 是 QA, fE DEV 模式 下 一 些 开 
发 者 功能 将 被 启用 ， 在 PROD 模式 下 禁止 创建 新 Cube。 
(20) 其 他 一 些 都 是 权限 控制 的 参数 配置 ， 这 部 分 参数 略 过 ， 感 兴趣 的 朋友 可 以 根据 实际 情 
况 配 置 。 
其 实 还 有 一 些 参数 默认 没有 写 在 kylin.properties 中 ， 但 是 如 果 设 计 Cube 时 出 现 问题 ， 比 如 
你 的 维度 组 合 方式 超过 Kylin 默认 设置 了 ， 无 法 创建 Cube， 那 么 可 能 需要 修改 下 面 两 个 参数 : 





下 面 我 们 来 看 一 份 典型 的 Kylin 集群 环境 配置 。 
对 于 负责 Kylin 的 Job 实例 的 节点 配置 (SZB-L0023777) : 
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对 于 负责 Kylin 的 query 实例 的 节点 配置 (SZB-L0023777、SZB-L0023778 、SZB- 
L0023779、SZB-L0023780) , HH F: 


从 上 面 的 配置 可 以 看 出 ，Job Query 实例 的 kylin.servermode 是 不 同 的 。 
Kylin 的 配置 文件 除了 kylin.properties， 还 有 其 他 三 个 配置 文件 ， 如 下 : 








他 们 涉及 Hive 和 Hadoop 方面 的 配置 参数 ， 比 如 可 以 设置 使 用 的 资源 队列 、HDFS 的 Block 
块 的 副本 数 等 ， 这 里 就 不 扩展 介绍 了 ， 请 朋友 们 自主 查阅 和 配置 。 


4. 步骤 四 : 启动 Kylin 前 检查 相关 权限 和 组 件 完整 性 


(1) 确保 куйа 用 户 有 权限 执行 hadoop、hive、hbase 等 shell 命令 ， 如 果 不 确定 ， 请 执行 
кунп 自 带 的 工具 ${KYLIN_HOME}/bin/check-env.sh， 如 果 没 有 问题 的 话 ， 应 该 返回 如 下 结果 : 





(2) 检查 Kylin 依赖 的 Hive 和 HBase 包 是 否 完整 。 
检查 HBase， 如 图 7-4 所 示 。 





[kylin@SZB-L0023777 ~]$ $(KYLIN_HOME]/bin/find-hbase-dependency.sh 
hbase dependency: /var/lib/kylin/hbase/lib/hbase-common-1.1.5.jar 
[ку11п@57В-10023777 ~]$ 
[Ку11п@52В-10023777 ~]$ 
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检查 Hive， 输 出 一 堆 ， 只 截取 部 分 内 容 ， 其 中 请 确认 НСАТ НОМЕ 环境 变量 配置 无 误 ， 如 
图 7-5 所 示 。 


[kylin@SZB-L0023777 bin]$ $(KYLIN_HOME]/bin/find-hive-dependency.sh 
SLF4J: Class path contains multiple SLF4J bindings. 

SLF4J: Found binding іп [jar:file:/var/lib/kylin/hbase-1.1.5/lib/s1f4j-1log43j312-1.7| 
SLF4J: Found binding in [jar:file:/opt/cloudera/parcels/CDH-5.7.0-1.cdh5.7.0.p0.45| 
SLF4J: See http://www.s1f4j.org/codes.html#multiple_bindings for an explanation. 
SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory] 

2016-07-24 07:59:10,310 WARN [main] mapreduce.TableMapReduceUtil: The hbase-prefil 


Logging initialized using configuration in jar:file:/opt/cloudera/parcels/CDH-5.7.| 
HCAT_HOME із set to: /opt/cloudera/parcels/CDB/lib/hive-hcatalog, use it to find hl 
hive dependency: /opt/cloudera/parcels/CDH-5.7.0-1.cdh5.7.0.p0.45/1lib/hive/conf:/ol 
ludera/parcels/CDH-S.7.0-1.cdh5.7.0.p0.4S/bin/../lib/hive/lib/hive-accumulo-handler| 
:/opt/cloudera/parcels/CDH-5.7.0-1.cdh5.7.0.p0.45/bin/../lib/hive/lib/hive-shims-0l 
ar:/opt/cloudera/parcels/CDH-5.7.0-1.cdh5.7.0.p0.45/bin/../lib/hive/lib/hbase-hado| 
.2.9.jar:/opt/cloudera/parcels/CDH-5.7.0-1.cdh5.7.0.p0.45/bin/../lib/hive/lib/maveļ 
lb/commons-codec-1.4.jar:/opt/cloudera/parcels/CDH-5.7.0-1.cdh5.7.0.p0.45/bin/../1i 
.11.jar:/opt/cloudera/parcels/CDH-5.7.0-1.cdh5.7.0.p0.45/bin/../lib/hive/lib/commoj 
opt/cloudera/parcels/CDH-5.7.0-1.cdh5.7.0.p0.45/bin/../lib/hive/lib/hive-beeline.j| 
ra/parcels/CDH-5.7.0-1.cdh5.7.0.p0.45/bin/../lib/hive/lib/jetty-all-server-7.6.0.™ 
opt/cloudera/parcels/CDH-5.7.0-1.cdh5.7.0.p0.45/bin/../lib/hive/lib/datanucleus-apl 
t/cloudera/parcels/CDH-5.7.0-1.cdh5.7.0.p0.45/bin/../lib/hive/lib/hive-jdbc-1.1.0- 
s-scheduler-1.1.0-cdh5.7.0.jar:/opt/cloudera/parcels/CDH-5.7.0-1.cdh5.7.0.p0.45/bil 
/hive/lib/hive-hbase-handler-1.1.0-cdh5.7.0.jar:/opt/cloudera/parcels/CDH-5.7.0-1. 











图 7-5 


(3) 确保 Hive 的 metastore 正常 开启 。 
Kylin 启动 过 程 会 通过 thrift 的 URL (比如 thrift://SZB-L0023780:9083) 连接 Hive 的 
metastore。 


(4) 可 选 操作 ， 配 置 kylin 的 使 用 内 存 ， 执 行 如 下 脚本 : 
SKYLIN_ HOME/bin/setenv.sh 
5. 步骤 五 : 启动 Kylin 集群 ( 所 有 Kylin 节点 ， 包 括 Job 和 Query 实例 的 节点 ) 


执行 ${KYLIN_HOME}/bin/kylin.sh start 启动 Kylin， 如 图 7-6 所 示 。 
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[[Куїїп@5378-10023777 күп: bin/kylin.sħ start | 
ТІН НОМЕ is set to bin/../ 

ylin.security.profile is set to testing 

LF4J: Class path contains multiple SLF4J bindings. 

ILF4J: Found binding іп [jar:file:/var/lib/kylin/hbase-1.1.5/lib/s1f43-log4312-1.7.5.jar!/org/s1f43/imp1. 
ELF43: Found binding іп [jar:file:/opt/cloudera/parcels/CDH-5.7.0-1.cdhs.7.0.p0.45/jars/s1f4j-log4312-1. 
F4J: See http://www.s1f4j.org/codes.htmlėmultiple_bindings for an explanation. 

F4J: Actual binding is of type [org.s1f4j.impl.Log4jLoggerFactory] 

[016-07-24 08:34:07,169 WARN [main] mapreduce.TableMapReduceUtil: The hbase-prefix-tree module jar contd 


[ogging initialized using configuration in jar:file:/opt/cloudera/parcels/CDH-5.7.0-1.cdh5.7.0.p0.45/jar: 
IN_JVM_SETTINGS is -Xms1024M -Хшх4096М -XX:MaxPermSize=128M -verbose:gc -XX:+PrintGCDetails -XX:+Prin 
lumberOfGCLogFiles=10 -XX:GCLogFileSize=64M 
IN_DEBUG_SETTINGS is not set, will not enable remote debuging 
IN_LD LIBRARY SETIINGS із not set, Usually it's okay unless you want to specify your own native path 
new Kylin instance is started by kylin, stop it using "kKylin.sh stop” 
Elease visit http://<ip>:7070/kylin 
[You can check the log at bin/..//logs/kylin.log 
[ку11п@52В-10023777 kylin]+ Ë 








图 7-6 








= 这 里 原先 显示 的 日 志 包含 HBase 和 Hive 的 依赖 包 信息 ， 输 出 比较 多 ， 因 为 篇 幅 限 制 ， 我 修 


( 


改 kylinsh 脚本 ， 将 里 面 输出 HBase 和 Hive 依赖 包 的 脚本 内 容 屏 蔽 掉 了 ， 不 再 执行 。 








启动 过 后 ， 你 可 以 查看 logs/kylin.log 日 志 信息 ， 观 察 一 下 Kylin 的 启动 过 程 ， 如 果 出 现 问 
题 ， 请 根据 日 志 内 容 提 示 进 行 解决 。 


这 里 补充 一 下 Kylin 的 日 志文 件 方面 的 内 容 ，Kylin 启动 后 ， 会 创建 logs 目录 ， 并 在 logs 目 


录 下 面 产 生 几 个 日 志文 件 : 


(1) kylin.log 


该 文件 是 主要 的 日 志文 件 ， 所 有 的 logger 默认 写 入 该 文件 ， 其 中 与 Kylin 相关 的 日 志 级 别 默 
认 是 DEBUG. 日 志 随 日 期 轮转 ， 即 每 天 0 点 时 将 前 一 天 的 日 志 存 放 到 以 日 期 为 后 级 的 文件 中 
(如 kylin.log.2016-08-06) ， 并 把 新 一 天 的 日 志保 存 到 全 新 的 kylin.log 文件 中 。 


(2) kylin.out 


该 文件 是 标准 输出 的 重 定向 文件 ， 一 些 非 Kylin 产生 的 标准 输出 《如 tomcat 启动 输出 、Hive 
命令 行 输出 等 ) 将 被 重 定向 到 该 文件 。 其 实 很 多 朋友 在 执行 完 Kylin 的 启动 命令 后 ， 就 会 查看 
kylin.log 文件 内 容 ， 发 现 一 段 时 间 内 并 没有 日 志 输 出 ， 其 实 这 个 时 候 正 在 启动 tomcat， 日 志 都 输 
入 到 kylin.out 文件 中 了 。 


(3) kylin.gc 


该 文件 是 用 来 记录 Kylin 的 Java 进程 GC 的 日 志 内 容 。 为 避免 多 次 启动 覆盖 旧 文 件 ， 该 日 志 
使 用 了 进程 号 作为 文件 名 后 级 (如 kylin.gc.3862.0) 。 


从 Apache Kylin 1.5.3 版 本 开始 ， 在 conf 目录 下 面 新 增 了 kylin-server-log4j.properties 文件 。 


Kylin 使 用 log4j 对 日 志 进 行 配置 ， 用 户 可 以 编辑 kylin-server-log4j.properties 文件 ， 对 日 志 级 别 、 
路 径 等 进行 修改 。 修 改 后 ， 需 要 重启 Kylin 服务 才 可 生效 。 
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6. 步骤 六 : 通过 Web 访问 Kylin 
Kylin 正常 启动 后 ， 我 们 就 可 以 一 睹 芳 容 了 ， 比 如 我 们 访问 Kylin 的 Job 实例 节点 : 





#78 Е Kylin 集群 环境 


© ”访问 地 址 : http://10.20.17.244:7070/kylin。 
© 默认 用 户 名 和 密码 : ADMIN/KYLIN. 


登录 界面 如 图 7-7 所 示 。 





< @ | D 10. 20. 17. 244:7070/ky1 





Login Issue? eA 








7-7 


输入 用 户 名 和 密码 后 ， 就 进入 Kylin 的 花花 世界 了 ， 以 后 我 们 绝 大 部 分 工作 都 沉迷 在 这 里 ， 
如 图 7-8 所 示 。 


£ 









С) 10. 20. 17. 244:7070/kylin/models 











Model Monitor 





Insight System 


日 四 


Models Data Source 


+ New- 


Models 





7-8 


好 了 ， 到 此 打住 ， 后 面 章节 我 们 会 详解 里 面 的 每 一 部 分 ， 让 你 找到 久违 的 成 就 感 。 
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7.3 为 куйп 集群 搭建 负载 均衡 器 


本 章 的 最 后 ， 我 们 为 Kylin 集群 搭建 负载 均衡 器 ， 将 用 户 访问 的 请 求 ， 分 发 到 Kylin 集群 的 
任意 一 个 实例 上 。 我 们 选择 的 负载 均衡 器 为 Nginx， 下 面 我 们 将 介绍 Nginx 和 搭建 Nginx 环境 。 


7.3.1 搭建 Nginx 环境 


1. Nginx 简介 


Nginx ("engine x") 是 一 个 高 性 能 的 HTTP 和 反 向 代理 服务 器 ， 也 是 一 个 IMAP/POP3/ 
SMTP 服务 器 。Nginx 是 由 Igor Sysoev 为 俄罗斯 访问 量 第 二 的 Ramblerru 站 点 开发 的 ， 第 一 个 公 
开 版 本 0.1.0 发 布 于 2004 年 10 月 4 日 。 其 将 源 代码 以 类 BSD 许可 证 的 形式 发 布 ， 因 它 的 稳定 
性 、 丰 富 的 功能 集 、 示 例 配置 文件 和 低 系统 资源 的 消耗 而 闻名 。2011 年 6 Л 1 H, Nginx 1.0.4 
发 布 。 

其 特点 是 占有 内 存 少 ， 并 发 能 力 强 ， 事 实 上 Nginx 的 并 发 能 力 确实 在 同类 型 的 网 页 服务 器 中 
表现 较 好 。 


2. 搭建 Nginx 的 前 提 条 件 


一 般 安装 Nginx 都 需要 先 安装 pere, zlib 和 openssl。pcre 为 了 重 写 rewrite， 用 于 支持 正则 表 
达 式 ，Nginx 的 НТТР 模块 需要 用 它 解析 正则 表达 式 。zlib 为 了 对 HTTP 包 内 容 gzip 压缩 。 
openssl 用 于 支持 更 安全 的 SSH 协议 上 传输 HTTP. 

我 们 选择 Nginx 为 稳定 版 本 Nginx-1.2.8.tar.gz， 那 么 对 应 的 ， 我 们 选择 依赖 的 几 个 组 件 的 版 
本 为 : 


下 面 简单 演示 一 下 这 些 模块 的 部 署 。 








所 有 模块 configure 时 可 以 添加 -prefix 参数 指定 模块 安装 目录 ， 另 外 如 果 你 的 环境 中 pcre、 | 





zlib 和 openssl 已 经 安装 过 ， 而 且 都 满足 要 求 ， 可 以 跳 过 这 一 步 ， 直 接 安装 Nginx。 


(1) pcre 安装 
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如 果 编 译 过 程 中 缺少 什么 包 ， 请 自主 通过 yum 或 pm 或 下 载 源码 包 编 译 安装 。 


(2) zlib 安装 





(3) openssl 安装 





3. 搭建 Nginx 


--with-pcre, --with-zlib 和 --with-openssl 分 别 指 我 们 之 前 编译 过 的 pere, zlib 和 
openssl 源码 目录 。 





4. 查看 Nginx 安装 目录 并 启动 
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下 面 我 们 启动 Nginx， 确 保 80 端口 号 没有 被 占用 ， 如 果 被 使 用 了 ， 请 修改 conf/Nginx.conf 
文件 中 的 listen 的 值 为 其 他 未 被 占用 的 端口 号 。 
启动 Nginx: 





查看 是 否 启 动 : 





可 以 看 到 80 端口 号 已 经 处 于 监听 状态 。 
我 们 访问 网 址 http://10.20.17.244:80， 出 现 如 图 7-9 所 示 的 页 面 Nginx， 启 动 正 常 。 


Welcome to nginx! 


If you see this page, the nginx web server is successfully installed and 
working. Further configuration is required. 


For online documentation and support please refer to nginx.org. 
Commercial support is available at nginx.com. 


Thank you for using nginx. 





图 7-9 


停止 Nginx: 


Nginx 的 常用 命令 如 下 : 





Nginx 命令 Options W F: 
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7.3.2 配置 Nginx 实现 Kylin 的 负载 均衡 
修改 /usr/local/Nginx/conf/Nginx.conf 配置 文件 ， 内 容 如 下 “# 为 注解 部 分 内 容 ) : 
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我 们 重新 启动 Nginx: 


然后 我 们 访问 10.20.17.244 主机 的 28080 端口 ， 如 图 7-10 所 示 。 








€ > C |D 10. 20. 17. 244:28080/kylin/login 


Ë Sign in 
Username 


Password 


Login Issue? 








图 7-10 
显示 如 图 7-10 所 示 页 面 ， 说 明 通 过 Nginx 访问 kylin 集群 环境 正常 。 
如 果 此 时 查看 Kylin 集群 每 个 节点 的 日 志 ${KYLIN_HOME}/logs/kylin.log 时 ， 其 中 只 有 一 个 
节点 会 响应 请 求 ， 如 果 我 们 打开 多 个 登录 页 面 时 ， 会 发 现 不 同 的 用 户 请 求 分 发 到 不 同 的 Kylin 节 


点 处 理 。 
如 果 朋 友 对 Nginx 的 分 发 算法 感 兴趣 的 话 ， 可 以 查阅 相关 资料 ， 此 处 我 们 默认 使 用 轮 询 的 方 
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第 二 部 分 
Apache Kylin 
进 阶 部 分 








在 第 一 部 分 中 ， 我 们 已 经 将 Kylin 的 大 数据 分 析 平 台 搭 建 好 了 ， 并 且 各 个 组 件 运行 正常 。 与 
此 同时 ， 我 们 还 部 署 了 Nginx 负载 均衡 器 ， 实 现 Kylin 集群 环境 的 高 并 发 访问 场景 的 应 用 需求 。 
工 欲 善 其 事 ， 必 先 利 其 器 ， 既 然 Kylin 平台 正常 运行 起 来 了 ， 那 我 们 将 开始 进入 Kylin 真正 的 实 
战 阶段 吧 。 


8. 1 Sample Cube 案例 描述 


使 用 官网 自 带 的 Sample Cube 来 演示 ， 带 大 家 熟练 掌握 Kylin 的 整个 作业 流程 。Kylin 开源 
版 本 发 布 的 二 进 制 包 中 包含 了 一 份 用 于 测试 的 样 例 数据 集 ， 包 含 三 张 表 的 数据 ， 大 小 仅 1MB A: 
右 。 使 用 Linux 命令 wc 查看 数据 量 如 下 : 


| Š wc -1 kylin/sample_cube/data/* í í í í í í í 
结果 为 


这 里 文件 名 称 是 由 Hive 的 “数据 库 名 称 . 表 名 ”命名 的 。 其 中 事实 表 为 KYLIN_SALES， 数 
据 量 为 1 万 条 ， 其 余 两 张 表 KYLIN_CAL ОТ 和 KYLIN_CATEGORY_GROUPINGS 都 是 维 表 ， 
因此 这 里 是 一 个 典型 的 星 型 模型 的 数据 结构 。 
三 张 表 的 含义 为 : 
(1) KYLIN_SALES 
事实 表 ， 其 保存 了 销售 订单 的 明细 信息 ， 每 一 行 对 应 着 一 笔 交 易 订 单 。 


(2) KYLIN_CATEGORY GROUPINGS 
维 表 ， 其 保存 了 商品 分 类 的 详细 介绍 。 
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(3) KYLIN_CAL_DT 
维 表 ， 其 保存 了 时 间 的 扩展 信息 。 





我 们 再 介绍 后 面 用 到 的 一 些 关键 字段 ， 如 表 8-1 所 示 。 


表 名 


KYLIN_SALES 


表 8-1 


字段 名 称 字段 含义 





KYLIN SALES 





KYLIN SALES 





KYLIN SALES 
KYLIN SALES 

KYLIN SALES 

KYLIN CATEGORY GROUPINGS 
KYLIN CATEGORY GROUPINGS 
KYLIN CATEGORY_GROUPINGS 
KYLIN CATEGORY _GROUPINGS 
KYLIN CATEGORY _GROUPINGS 
KYLIN CATEGORY GROUPINGS 
KYLIN CATEGORY GROUPINGS 


KYLIN CAL DT 





KYLIN CAL DT 





LSTG FORMAT NAME 订单 交易 类 型 


з permen reoi (ита 
ser permen FELD3 arexe 
Dp [emm 


—s 





商品 一 级 分 类 


Pur 47 


下 面 开 始 正式 进入 Demo 案例 实战 环节 。 





821 准备 数据 


8. 2 Sample Cube 案例 实战 


首先 我 们 执行 ${KYLIN_HOME}/bin/sample.sh 脚本 ， 该 脚本 执行 过 程 中 主要 做 几 个 事情 : 


1. 在 Hive 中 创建 演示 的 三 张 表 并 导入 数据 
创建 Hive 表 的 脚本 位 于 ${KYLIN_HOME}/sample_cube/create_sample_tables.sql。 
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Hive 表 的 数据 位 于 ${KYLIN_HOME}/sample_cube/data 目录 下 面 ， 三 个 csv 格式 文件 ， 列 都 
以 逗号 分 隔 : 





2. 上 传 Sample Cube 的 metadata 


样 例 Cube 的 元 数据 位 于 ${KYLIN_HOME}/sample_cube/metadata 目录 下 面 ， 我 们 执行 ls 命 





每 一 个 目录 都 代表 元 数据 的 一 部 分 ， 而 且 目录 下 面 都 是 json 格式 的 文件 ， 我 们 后 面 会 详细 
描述 。 

sample.sh 执行 完成 后 ， 重 启 kylin 服务 或 者 从 Web UI 页 面 加 载 元 数据 ， 比 如 我 们 通过 Web 
UI 加载 元 数据 ， 如 图 8-1 所 示 。 





Server Config Server Environment Actions 


aaa a [an š 
хул ease, default стравот cadecranapey ктын сае = Jar/14/ylin/iylin cont l 
ee x + si. 

MA pe ~ 


=== 
68 
= 

EEEn 
шот. 


MsPRTH ~ /usr/de/34b/nls/asg лн, сас 











asa Я 

kylin.web. j length-4 MBASE PID_DIR ~ /var/lib/kylin/hbase/logs Links 

шло ш S ie enana ens enem noraa] 

IP ш » Hadoop Monitor 
8-1 


单 击 图 中 最 右边 Actions 下 面 的 第 一 个 选项 “Reload Metadata”， 弹 出 提示 框 如 图 8-2 所 


不 。 
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Are you sure to reload metadata and clean cac 
he? 


Cance! 9 





图 8-2 


选择 Yes 即 可 ， 提 示 成 功 加 载 元 数据 ， 如 图 8-3 所 示 。 


м 


Success! 


Cache reload successfully 





8-3 
这 个 时 候 ， 我 们 就 可 以 从 页 面 的 左上 角 的 下 拉 框 中 选择 Project “leam_kylin”， 然 后 再 从 
最 顶部 选择 “Model”， 如 图 8-4 所 示 。 


insight Model Montor 








Modi Data Sai 
Cubes 
+ New- 
Names Statuse Cube Size Source Records Last Build тте Ом 
Models 
Ovinsales сиы OSALED ocos о 
e 
Win_sales_model 


Total: 1 
Storage- 000 KB 





图 8-4 


从 这 个 Model 页 面 我 们 可 以 看 到 以 下 内 容 : 
© 最 左边 是 “Models”， 即 模式 设计 ， 定 义 事实 表 和 维度 的 关联 方式 、 维 度 、 度 量 等 内 容 。 
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© іж “Models” 4j “Data Source”， 支 持 从 Hive 中 加 载 数 据 表 ， 以 及 使 用 Streaming 
Table. 

© 最 右边 是 “Cubes”， 即 根据 “Models” 来 设计 的 所 有 Cube 列表 ， 你 可 以 选择 一 个 
Cube 进行 Drop、Delete、Build、Refresh 等 操作 ， 如 图 8-5 所 示 的 Action 下 拉 框 。 





cubes 


Name $ Status Cube Size SourceRecords Last Build Time Owner Create Time Actions Admins 
©kyin_sales_cub (DISABLEDI 0.00 KB 0 RN Action» 
е 

Drop 

Edt 

Build 





опа з  JSON(Cube) Acess һоШкаюп  HBase есы 





Меге 
Cube Designer Enable 
Puge 

2 3 4 5 6) сюе 7 


Cube Info Jeasure Refresh Setting 








图 8-5 


这 里 我 们 先 直 接 拿 Sample Cube 样 例 自 带 的 Cube 来 构建 ， 后 面 再 对 Model 和 Cube 创建 过 
程 进行 详细 演示 。 
8.2.2 构建 Cube 

首先 ， 需 要 确保 你 有 Build Cube 的 权限 。 


(1) 选择 Project “leam_kylin”， 在 Cubes 页 面 中 单 击 Cube 名 称 为 “kylin_sales_cube” 
- 栏 右 侧 的 Actions 下 拉 框 并 选择 Build 操作 ， 如 图 8-6 所 示 。 


Insight Model Monitor System Miep» — Wecome, A| 
Cubes 
Names Statuse Сире ше source Records LastBuld тте Owner CreateTime Actions Admins sti 
©kylin_sales_cub [DISABLED] 000 KE 0 Tene) Atone @ 
e 

оор 

Eat 
Total: 1 Buia 
Storage: 0.00 KB T 

Merge 

Enable 

















图 8-6 
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(2) 弹出 窗口 ， 如 图 8-7 所 示 。 





CUBE BUILD CONFIRM 


PARTITION DATE COLUMN DEFAULT KYLIN_SALES PART_DT 
Start Date (Include) 2012-01-01 00:00:00 
Епа Date (Exclude) в 





图 8-7 


选择 Build Cube 的 时 间 范 围 (这 个 Cube 是 增 量 更 新 的 ) ， 我 们 可 以 看 到 开始 时 间 已 经 给 我 
们 设置 好 了 ， 这 是 因为 在 创建 Cube 过 程 中 设置 Refresh 的 分 区 开始 时 间 时 已 经 设置 好 了 ， 其 实 
这 个 时 间 也 是 Hive 表 KYLIN_SALES 字段 PART DT 的 最 小 时 间 ， 我 们 可 以 从 Hive 表 中 确认 一 下 。 





G) 单 击 “End Date(Excludej” 输 入 框 ， 我 们 选择 增 量 构建 这 个 Cube 的 结束 日 期 为 2013- 
01-01 00:00:00 (不 包含 这 一 天 ) ， 如 图 8-8 所 示 。 


CUBE BUILD CONFIRM 
PARTITION DATE COLUMN DEFAULT KYLIN_SALES PART_DT 


Start Date (Include) 2012-01-01 00 00 00 


End Date (Exclude) 2013-01-01 00:00:00 





图 8-8 


(4) 单 击 Submit 提交 请 求 ， 如 图 8-9 所 示 。 


м 


Ѕиссеѕѕ! 


Rebuild job was submitted successfully 
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(5) 提交 请 求 成 功 后 ， 你 可 以 从 Monitor 页 面 的 所 有 Jobs 中 找到 新 建 的 job， 如 图 8-10 
所 示 。 


ops | sow oueres 


Cube Name: | а Jobs w [LAST ORE WEEK + ü NEW © FENOING © RUNNING 3 FINISHED Ñ ERROR Ш DISCARDED (E 


энте. cuves Progress Last medines Time ~ Durons 


Myin заез cube -20120101000000_20130101000000 -BUILD-POT Ку sales cube 2016-07-24 042514 PST озот 
20157-21 0534:13 





图 8-10 


Job 中 包含 了 Job Мате, Cube, Process 等 内 容 ， 而 且 还 包含 了 Actions 相关 操作 
(Discard) 。 


(6) 单 击 Job 最 右边 的 箭头 符号 ， 如 图 8-11 所 示 ， 查 看 Job 的 详细 执行 流程 ， 如 图 
8-12 所 示 。 


эз Slow Queres 


Cube Name: а Jobs in: [LAST ONE VEER э 1; NEW Ш PENDING G RUNNING Ù FINISHED G ERROR u оесляоео EJ 


Job Name $ cuves Progmsss Last Moditied Time < ratione Actions 


кю. зане cub -20120101000000.20130101000000- BULD -PDT sn sabes sube 2016.07.24 01252575T 
лели 052419 








图 8-11 
ЕО о 12 Detail Information е 
Job Мате kylin_sales_cube - 
Actions 20120101000000_20130 
101000000 - BUILD - 
PDT 2016-07-24 
Acton» 05:24:19 
Job ID 6958f1e7-6ff5-403c- 


8a6b-08ba809be486 


status шша 
Duration 7.00 mins 
Aetion™ 
MapReduce Wai 1.12 mins 
ting 


Start 2016-07-24 04:25:14 PST 


© © 2016-07-24 04:25:14 PST 


#1 Siep Name: Create Intermediate Flat Hive 
Table 





8-12 


Job 详细 信息 为 跟踪 一 个 Job 提供 了 它 的 每 一 步 记录 。 你 可 以 将 光标 停放 在 一 个 步骤 状态 图 
标 上 查看 基本 状态 和 信息 。 
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这 里 只 截取 最 开始 的 一 部 分 任务 ， 其 余 还 有 很 长 的 一 段 任务 流程 没有 展示 ， 我 们 后 面 会 单独 
用 一 个 章节 的 内 容 来 详细 介绍 Cube 构建 的 整个 流程 。 






此 时 我 们 可 以 看 到 作业 还 在 执行 ， 那 么 我 们 趁 着 这 个 时 间 ， 看 一 下 Hive 和 Hadoop 方面 都 
有 什么 变化 。 


Hive 方面 的 变化 
Cube 构建 的 过 程 中 ， 我 们 可 以 登录 Hive 数据 库 查 看 有 什么 变化 : 


可 以 看 到 有 一 张 名 字 很 长 的 表 ， 其 实 这 个 就 是 Intermediate Flat Table， 有 的 人 称 之 为 平面 
表 。 如 果 你 对 这 张 表 的 内 容 比 较 好 奇 ， 可 以 查看 作业 中 的 内 容 ， 如 图 8-13 所 示 。 


Start 2016-07-24 04:25:14 PST 


° © 2016-07-24 04:25:14 PST 


#1 Step Мате: Create Intermediate Flat Hive 
Table 

Data Size: 147.52 KB 

Duration: 1.06 mins 


apa 





图 8-13 


单 击 第 一 个 钥匙 的 按钮 (Parameters) 出 现 如 图 8-14 所 示 的 内 容 。 





Paraneters 


ive -e “USE kylin_flat_db; 
DROP TABLE IF EXISTS kylin_intermediate_kylin_salez_cube_desc_20120191000000_20130101090000; 
CREATE EXTERNAL TABLE IF NOT EXISTS kylin_intermediate_kylin_sales_cube_desc_20120101090000_20130101000000 
‹ 

DEFAULT_KYLIN_SALES_PART_DT date 

DEFAULT_KYLIN_SALES_LEAF_CATEG_ID bigint 

,DEFAULT_KYLIN_CATEGONY. GROUPINGS._META_CATES_NAME =tring 

,DEFAULT_KYLIN_CATEGONY_ GROUPINGS_CATEG_LVL2_NAME string 

,DEFAULT_KYLIN_CATEGONY_ GROUPINGS_CATEG_LVL3_NAME string 

,DEFAULT_KYLIN_SALES_LSTG_FORMAT_NAME strir 

,DEFAULT_KYLIN_SALES_PRICE decimal(19,4) 

,DEFAULT_KYLIN_SALES_SELLER_1D bigint 


) 

ROW FORMAT DELIMITED FIELDS TERMINATED 8Y *\177* 
STORED AS SEQUENCEFILE 

LOCATION '/kylin/kylin metadata/kylin-6958f1e7-6ff5-403c-ña6b-@3ba899be486/kylin intermediate kylin sales cube desc 20120191000000 2013017 
上 











8-14 


里 面 内 容 有 点 多 ， 不 方便 全 部 截图 ， 我 就 把 核心 的 代码 拿 出 来 ， 如 下 : 
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可 以 看 到 这 个 中 间 临 时 表 的 大 概 内 容 为 事实 表 和 维度 的 关联 后 输出 维度 和 度量 指标 ， 以 及 根 
据 我 们 增 量 构建 Cube 时 指定 的 开始 和 结束 时 间 来 裁剪 数据 范围 。 
当 构建 Cube 结束 后 ， 此 中 间 临 时 表 就 被 删除 了 。 


Hadoop 方面 的 变化 


如 果 你 的 Hadoop 没有 启动 jobhistory， 需 要 手动 开启 ， 和 否则 提交 的 构建 Cube 作业 可 能 无 法 
执行 ， 同 样 也 方便 后 续 定位 问题 。 

如 果 搭 建 的 Hadoop 环境 是 CDH 平台 的 ， 选 择 jobhistory 组 件 ， 那 么 jobhistory 默认 是 开启 
的 。 

如 果 你 使 用 Apache 开源 的 Hadoop 版 本 ， 可 能 需要 手动 开启 一 下 ， 如 下 是 启动 的 一 种 方 
式 ， 默 认 端 口号 是 19888: 


我 们 查看 Hadoop 的 JobHistory 网 址 : 


显示 内 容 如 图 8-15 所 示 ， 包 含 了 Kylin 构建 Cube 中 执行 的 MapReduce 作业 。 


基于 Apache Kylin 构建 分 析 平 台 


CE JobHistory 


+ Application Retired Jobs 
About | 


Бш | Бый лани анса 





* Tools 





2 Til cauleted 





ЕРЕ ° 
detit июкию 1 1 1 
asas юж 1 1 1 
ish 400004244 Ф купа WW-Cuboid Бади ylin sales se Step bylin default аир 1 1 1 











图 8-15 


(7) 如 果 你 要 放弃 这 个 Job， 单 击 Job 选项 的 Actions 下 拉 框 中 的 Discard 按钮 ， 如 图 8-16 


所 示 。 


Jobs Slow Queries 


Cube Name: Q Jobsin:[LASTGNEWEEK 日 NEW © PENDING © RUNNING (J FINISHED 
区 ) ERROR 日 DiscaroaD 加 


Job Name $ Cube $ Progress LastModified Time - Duration Actions 
kylin_sales_cube - lyin_saes_cu 9 2016-07-24 04:34:48 993mms arene! D 
20120101000000_20130101000000 - BUILD- be PST TRT 

POT 2016-07-24 05:24:19 


Dacard 


Diagnosis 





图 8-16 


Discard， 即 放弃 此 任务 ， 立 即 停止 执行 并 不 会 再 恢复 ， 也 就 是 无 法 再 次 执行 RESUME 操作 


了 【处 于 ERROR 状态 的 任务 ， 用 户 在 排查 或 解决 问题 后 ， 通 过 RESUME 操作 来 重 试 执行 任 
务 ) 。 
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(8) Job 执行 完成 情况 ， 如 图 8-17 所 示 。 


Jobs Slow Queries 


Cube Name: Q Jobs in: | LAST ONE WEEK + NEW 0 PENDING [ J RUNNI 
t © ERROR © DISCARDED EJ 


Job Name $ Cube + Progress Last Modified Time ~ 


kylin_sales_cube - Myin_sales_ cu WI. 2016-07-24 04:42:05 
20120101000000_20130101000000 - BUILD- be PST 
PDT 2016-07-24 05:24:19 








图 8-17 


(9) 对 构建 好 的 Cube 进行 查询 。 
切换 到 Kylin 的 Insight 页 面 ， 提 供 了 交互 式 的 SQL 查询 。 


我 们 将 上 面 的 SQL 语句 写 入 到 New Query 的 对 话 框 中 ， 然 后 单 击 右 下 角 的 Submit 提交 
SQL 查询 ， 如 图 8-18 所 示 。 


















Kylin se Моно анро ест ANIN” 
пе 
Tables New Ону Saved Queries Query History 
1 select part_de, 
2 1ге) es total зеен, 
| oeraur m icriner саше а) wç cenere 
т KvUN_CAL DT ` Fera 
99 KYLIN_CATEGORY_GROUPINGS и Бадан 
R KYLIN_SALES 
тез Cit+Sh+Space or AtsSpace[Wndows) Commano+Opticn+Space(Mac) to Ist tabies/columns in query box 
Projeet: ur am EZ 
图 8-18 
; x А Ix] = 
0.44 秒 就 返回 了 结果 ， 速 度 还 是 很 快 的 ， 如 图 8-19 所 示 。 
Results 
[ТТТ Status: [АП ' 
Query string v Start Time: 2016-07-24 07:23:24 PST Duration: 0.445 ETEWR sss 
Status: Project: learn_kylin Cubes: kylin_sales_cube 
Results (365) м Visualization @Expot „^ 


PART_DT ~ TOTAL_SELL.. SELLERS ~ 


2012-01-01 466.9037 12 " 








2012-01-02 970.2347 17 " 
2012-01-03 917.4138 14 
2012-01-04 553.0541 10 
2012-01-05 732.9007 18 
2012-01-06 296.3882 9 
8-19 


为 了 验证 准确 性 ， 你 可 以 将 上 面 的 SQL 放 到 Hive 里 面 执行 ， 并 比 对 查询 速度 ， 如 图 8-20 
所 示 。 
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[hive> select part_dt, 
- sum(price) as total_selled, 
> count (distinct seller id) as sellers 
> from kylin_sales 
> group by part_dt 
> order by part_dt; 








图 8-20 


这 里 省 略 MapReduce 执行 过 程 的 日 志 内 容 。MapReduce 作业 执行 完成 后 的 结果 如 图 8-21 所 


603.2746 
797.4346 
1004.7532 
587.1644 
409.5192 
912.0252 
799.8385 


708.0807 
434.5787 
797.2707 
926.5274 
1144.2961 
574.341 12 





图 8-21 


通过 比较 ，Kylin 的 查询 速度 还 是 很 快 的 。 
本 章 主要 介绍 了 官网 的 Sample Cube 的 搭建 和 Cube 构建 方面 的 内 容 ， 从 下 一 章节 开始 详细 
介绍 Kylin 中 多 维 分 析 Cube 的 建立 的 整个 流程 。 
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< 多 维 分 析 的 Cube 创 建 实战 > 


上 一 章节 ， 我 们 已 经 将 Kylin 官方 自 带 的 Sample Cube 给 朋友 们 演示 了 一 遍 ， 估 计 大 家 对 
Kylin 进行 多 维 数据 分 析 从 整体 上 有 点 认识 了 。 本 章 将 会 带领 大 家 从 无 到 有 详细 地 创建 一 个 完整 
的 Cube， 其 中 包括 数据 源 导入 、 创 建 Project、 创 建 Model、 设 计 Cube、 构 建 Cube 等 操作 。 


Cube 模型 


这 里 再 给 大 家 补充 说 明 一 下 Kylin 中 的 Cube 模型 。 

Cube 是 一 种 典型 的 多 维 数据 分 析 技 术 ， 一 个 Cube 可 以 有 多 个 事实 表 、 多 个 维 表 构 成 。 本 书 
的 开始 章节 中 ， 我 们 已 经 对 数据 仓库 、OLAP、Cube、 星 型 模型 、 事 实 表 、 维 度 表 等 都 进行 了 详 
细 的 阐述 。 

我 们 先 举 个 例子 ， 比 如 分 析 网 站 流量 的 Cube， 包 含 一 个 事实 表 和 四 个 维度 表 : 

事实 表 包 括 : 

天 、 来 源 ID、 浏 览 器 ID、 操 作 系统 ID、PV(Page View). PageNumber 等 ， 其 中 ， 小 时 、 来 
源 ID、 浏 览 器 ID、 操作 系统 ID 为 维度 ，PV、PageNumber 为 指标 。 

般 事 实 表 中 的 维度 都 采用 外 键 ID 的 形式 ， 一 来 可 以 节省 存储 ， 也 可 以 很 好 地 适用 于 其 他 

分 析 工 具 。 

维度 表 包括 : 
时 间 维 表 : 年 、 月 、 日 ， 其 中 天 为 最 细 粒 度 ， 也 为 该 表 主键 ; 
访问 来 源 维 表 : 来 源 ID、 来 源 名 称 ; 
浏览 器 维 表 : 浏览 器 ID、 浏 览 器 名 称 ; 
操作 系统 维 表 : 操作 系统 ID 、 操 作 系统 名 称 ; 
事实 表 中 的 维度 ， 分 别 与 这 四 张 维 度 表 通过 主 外 键 的 方式 关联 。Kylin 中 的 Cube 使 用 的 就 
是 这 种 模型 ， 一 个 事实 表 和 多 个 维度 表 。 

好 了 ，Cube 就 简单 补充 到 这 里 ， 感 兴趣 的 朋友 ， 请 查询 本 书 的 前 面 章 节 详 细 描述 。 

Kylin 中 多 维 分 析 Cube 的 建立 主要 包括 以 下 步骤 : 
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(1) Hive 中 事实 表 ， 以 及 多 张 维 表 的 处 理 ; 
(2) Kylin 中 建立 项 目 (Project) ; 

(3) Kylin 中 建立 数据 源 (Data Source) ; 
(4) Kylin 中 建立 数据 模型 (Model); 

(5) Kylin 中 建立 Cube; 

(6) Build Cube; 

(7) 查询 Cube。 


其 中 核心 流程 包括 : 同步 Hive 元 数据 、 新 建 Model、 新 建 Cube, Cube 的 预计 算 过 程 和 
SQL 查询 过 程 。 


9.2 创建 Cube 的 流程 


下 面 我 们 开始 详解 Kylin 中 创建 Cube 的 整个 流程 ， 创 建 步骤 分 为 7 步 7 个 小 节 进行 说 明 。 


9.2.1 步骤 一 : Hive 中 事实 表 ， 以 及 多 张 维 表 的 处 理 


Kylin 处 理 的 数据 来 源 之 一 为 Hive， 所 以 首先 需要 将 分 析 的 数据 导入 到 Hive 中 ， 并 在 Hive 
作为 数据 仓库 层面 进行 预 处 理 ， 目 的 是 满足 Kylin 的 Cube 模型 的 要 求 。 

现在 迁移 数据 到 Hive 中 的 方式 很 多 ， 可 以 使 用 ETL 工具 (比如 Kettle) 或 Sqoop 开源 组 
件 。 

本 测试 案例 虽然 比较 简单 ， 但 是 也 会 涵盖 创建 Cube 的 各 个 方面 ， 我 们 这 里 选择 一 张 事实 表 
和 两 张 维 表 关联 进行 演示 。 

Hive 中 的 事实 表 的 建 表 语句 为 : 
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事实 表 web access fact ТЫ 包含 的 维度 有 day、regionid、cityid、siteid、os， 度 量 指标 有 汇总 
的 pv 或 去 重 计数 的 cookieid 。 
为 了 方便 演示 ， 我 们 从 本 地 加 载 数据 到 Hive， 数 据 文件 fact data txt 部 分 内 容 如 下 : 


如 果 大 家 想 根据 本 节 提 供 的 数据 来 实战 操作 的 话 ， 我 写 了 个 Java 程序 ， 用 来 生成 模拟 数 
据 ，Java 代码 全 部 内 容 如 下 : 





+ Apache Kylin 构建 大 数据 分 析 平台 ] 








[ зов 多 维 分 析 的 Cube 创建 实战 


加 载 数 据 文件 到 Hive 表 中 : 


region 维度 建 表 语 句 和 数据 文件 region.txt， 内 容 如 下 : 
建 表 语句 : 


数据 文件 region.txt: 








基于 Apache Kylin 构建 大 数据 分 析 平台 M 





city 维度 建 表 语句 和 数据 文件 city.txt， 内 容 如 下 o 
建 表 语 句 : 


数据 文件 city.txt: 








我 们 将 两 种 维 表 也 加 载 到 Hive 表 中 : 


> \ 
[те 2 Kylin 采用 的 是 星 型 模型 ， 即 一 张 事实 表 和 多 张 维 度 表 。 很 多 时 候 ， 我 们 可 能 涉及 多 张 事实 
表 ， 这 就 需要 我 们 先 在 Hive 中 进行 预 处 理 ， 产 生 一 张 比较 大 的 事实 表 ， 或 者 使 用 视图 view 

来 处 理 ， 用 视图 作为 多 张 事实 表 处 理 座 辑 。 





另外 还 需要 注意 的 是 ， 有 些 时 候 Hive 表 的 字段 类 型 可 能 不 符合 Куна 的 要 求 ， 但 是 我 们 又 


94 


第 9 章 多 维 分 析 的 Сире 创建 实战 


不 打算 修改 Hive 表 的 字段 类 型 ， 那 么 也 可 以 使 用 视图 来 进行 处 理 ， 将 字段 类 型 转换 为 需要 的 类 
型 ， 或 者 你 也 可 以 创建 另外 一 张 事实 表 〈 占 用 更 多 存储 空间 ) 。 


9.2.2 ”步骤 二 : Kylin 中 建立 项 目 (Project) 
新 建 一 个 Project， 如 图 9-1 所 示 。 























Kylin Insight Model Monitor System 
E EB тое: 
Models Data Source = 
Cubes 
+ New- 
Name $ Statuss Cube Size s| 
Models 
ein saes cu 3778 562m8 4| 
be 
kylin_sales_model 
图 9-1 


我 用 线 框 圈 起 来 的 两 个 图 标 按钮 都 可 以 用 来 新 建 Project 工程 。 
比如 我 们 单 击 “+” 号 按钮 ， 弹 出 对 话 框 ， 输 入 Project 名 称 并 单 击 Submit， 如 图 9-2 所 示 。 


New Project 


Project Name 


myproject_pvud 





Project Description 











Eg 9-2 
923 FRE: Kylin 中 建立 数据 源 (Data Source) 


Kylin 中 建立 数据 源 操 作 如 图 9-3 所 示 ， 先 执行 操作 1， 选 择 刚才 创建 的 Project: 再 执行 操 
作 2， 单 击 Data Source; 最 后 再 执行 操作 3， 选 择 加 载 数据 方式 。 
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n | тургцесї рушу | Insight Model Monitor System 
日 


Models 2. 选择 操作 数据 源 页 面 


1. 选择 Project 








加 Хо tables 
Tables иг 
Click here to load your hive table 
_ 1 3. 选 择 加 载 数据 方式 
图 9-3 


加 载 数 据 这 步 操 作 有 几 种 方式 ， 说 明 如 下 : 


(1) 第 一 个 图 标 : Load Hive Table 
手工 填 入 需要 加 载 的 Hive 列表 ， 表 之 间 用 逗号 分 隔 ， 比 如 我 输入 刚才 创建 的 三 张 表 : 


输入 方式 如 图 9-4 所 示 。 
Load Hive Table Metadata 


Project: myproject_pvuv Table Names:(Seperate with comma) 





куйп ла 90 city_tbl.kylin_ñat_db region_tbliyin_fat_db kylin_fact_tb[ 














图 9-4 


单 击 Sync 同步 表 信 息 ， 提 示 同 步 成 功 ， 如 图 9-5 所 示 。 
м 





Success! 


The following table(s) have been successfully s 
ynchronized 
KYLIN_FLAT_DB REGION_TBL 
KYLIN_FLAT_DB.KYLIN_FACT_TBL 
KYLIN_FLAT_DB.CITY_TBL 


图 9-5 
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(2) 第 二 个 图 标 : Load Hive Table From Tree 


单 击 数 据 库 kylin_flat db 后 列 出 库 下 面 所 有 的 表 ， 然 后 单 击 需 要 同步 的 表 即 可 ， 最 后 单 击 
Sync 同步 ， 如 图 9-6 所 示 。 





Project: myproject_pvuv 


Filter | 


Ë default 

Е helloworld 

Е купп паг db 
kylin_flat_db.city_tbl 
kylin_flat_db.kylin_fact_tbl 
kylin_flat_db.region_tbl 
kylin_flat_db.web_access ѓасі І 


@ test 


Cancel 








9-6 


G) 第 三 个 图 标 : Unload Hive Table 
这 一 步 和 第 一 个 图 标 操作 一 样 ， 只 不 过 此 功能 是 卸载 Kylin 同步 的 表 。 


(4) 最 后 一 个 图 标 : Add Streaming Table 


添加 实时 数据 流 的 表 ， 格 式 必须 是 Json 格式 的 。 从 1.5.2 版 本 开始 ， 官 网 给 出 了 在 Kylin 中 
基于 Kafka 定义 Streaming Table， 从 而 完成 准 实时 Cube 的 构建 ， 如 图 9-7 所 示 。 





Streaming Table And Cluster Info 


Need to input streaming source record here, will detect 
the source schema and create a table schema for 
streaming 





图 9-7 


我 们 这 里 只 要 加 载 之 前 创建 的 三 张 Hive 表 就 可 以 了 ， 如 图 9-8 所 示 。 
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Data Source 





Models 


Tables гї 


Ë KYLIN_FLAT_DB 
图 CITY_TBL 


Select your table 





EB KYUN_FACT TBL 
ЕВ REGION_TBL 





图 9-8 


9.24 步骤 四 : Kylin 中 建立 数据 模型 (Model) 
Kylin 中 建立 数据 模型 操作 如 图 9-9 所 示 。 


Kylin [oea |] | Insight Model Monitor 


工 选择 Project 
日 四 


2 选择 Models 





Data Source 





3. 选 择 New Model 





ж New Model 
ibe 





@ Ne 





图 9-9 


我 们 这 里 选择 New Model， 弹 出 对 话 框 ， 输 入 Model 名 称 ， 如 图 9-10 所 示 。 





Kylin Insight Model Monitor 





* No table selected 














Model Designer 


О s 了 


Model Info 





Model Name Ө* myproject_pvuv_mcdel 


Description 








图 9-10 
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单 击 Next， 如 图 9-11 所 示 。 








Model Des 
@—— ; л ° 
Model Info Data Model imensions Measures Settings 





Fact Table * 1. 选 择 事 交 表 
+ Add Lookup Table е: А = a 
2. 选择 维度 表 ,可 以 分 别 选 择 多 个 维度 表 | 
ID Table Name Join Join Condition Actions 
Type 
1 KYLIN_FLAT_DBREGION_T left KYLIN_FLAT_DB ,WEB_ACCESS_FACT_TBL.REGIONID = KYLIN_FLAT_p8.REGION_TBL.REGIoID PAE 
BL 
2 KYLIN_FLAT_DBCITY TBL left KVLIN_FLAT_DB.WEB_ACCESS_FACT_TBL.CITYID = KYLIN_FLAT_DB.CITY_TBL.CITYID ап 


«з 








Ё 9-11 


这 里 主要 用 来 选择 事实 表 和 维度 表 ， 以 及 它们 的 关联 方式 《left join 或 inner join) 和 关联 条 
件 〈 等 式 关 联系 件 ) 。 
配置 完成 后 ， 单 击 Next， 如 图 9-12 所 示 。 











Model Designer 
© OO- я т 
Model Info Data Model Dimensions Measures setting: 
Dimensions 
ID Table Name Columns 
1 KYLIN_FLAT_DB.W DAY х SED Х OS Х REGIONID Х CITYID 
EB_ACCESS_FAC 
T_TBL 
à KYLIN_FLAT_DBR — REGIONNAME 
EGION_TBL 
3 KYLIN_FLAT_DB.CI ` cITYNAME 
TY_TBL 
9-12 


选择 模型 的 维度 ， 选 好 后 ， 单 击 Next， 如 图 9-13 所 示 。 
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Model Info Data Model Dimensions 
Select your measures 
COOKED * PV 
图 9-13 


选择 好 度量 指标 字段 后 ， 继 续 单 击 Next， 如 图 9-14 所 示 。 
С) © © 


Model Info Data Model Dimensions 


Partition 
Partition Date Column @ 


KYLIN_FLAT_DB WEB_ACCESS_FACT_TBLDAY 
Date Format 














уууу-ММ-да 
Has a separate “time of the дау” column No 
?9 
Filter 
Fiter © were 
pv > 


Measures 


Measures 











图 9-14 








~" E 


Setings 


€ Prev УУЧ 





设置 Cube 增 量 刷新 的 分 区 字段 ， 字 段 类 型 可 以 为 Date、Timestamp、String、Varchar 等 。 


如 果 分 区 字段 为 空 ， 那 么 每 次 全 量 刷 新 Cube。 


如 果 你 分 区 的 字段 的 值 ， 比 如 日 期 和 时 间 是 分 开 的 ， 那 么 还 需要 指定 额外 独立 的 时 间 字 上段， 


如 图 9-15 所 示 ， 填 写 好 字段 和 时 间 格 式 。 





Has a separate “time of the day” column Еу | 
ө 


Partition Time Column @ 





—Select Partition Column— 
Time Format 








—Select Time Format— 





9-15 
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我 们 还 可 以 从 Hive 源 数据 表 中 过 滤 数 据 ， 这 里 不 要 指定 where 关键 字 ， 只 要 直接 写 过 滤 条 
件 就 可 以 了 。 
最 后 ， 我 们 单 击 Save， 保 存 模型 ， 如 图 9-16 所 示 。 





Are you sure to save the 
Model? 


图 9-16 


单 击 Yes 保存 Model， 那 么 我 们 的 Model 就 创建 好 了 。 
在 创建 Model 的 过 程 中 ， 有 几 个 步骤 的 点 需要 说 明 : 


@ Model Name: 全 局 唯一 。 

Data Model: 星 型 模型 ， 一 个 事实 表 和 多 个 维度 表 。 

Dimensions: 选择 事实 表 和 维度 表 的 维度 ， 这 里 设置 的 维度 表 在 新 建 Cube 时 使 用 。 
Measures: 设置 度量 ， 只 能 来 自 事实 表 。 

Settings: 如 果 事 实 表 是 日 增 量 数据 ，Partition Date Column 可 以 选择 事实 表 的 日 期 分 区 
字段 。 在 Kylin 1.5.2 版 本 中 新 增加 小 时 分 区 设置 filter 条件 ， 用 于 对 表 中 的 数据 进行 过 
W. 


模型 检查 
既然 模型 创建 好 了 ， 那 么 我 们 浏览 一 下 创建 好 的 模型 ， 看 看 有 没有 什么 问题 ， 如 图 9-17 所 





Models Data Source 


+ New- 


Models 


myproject_pvuv_model 








图 9-17 


单 击 Model 的 名 称 “myproject_pvuv_model”， 弹 出 窗口 ， 如 图 9-18 所 示 。 
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Model Designer 


GO 一 一 2 3 4 5 


Model Info Data Model 











Model Name @ myproject_pvuv_model 


Description 








图 9-18 
这 里 有 三 种 方式 查看 ， 分 别 为 Grid CRH) ~ Visualization (可 视 化 )、JSON (JSON 格 
165 
(1) Grid〈 表 格 ) : 刚才 创建 Model 的 整个 过 程 ， 如 图 9-19 所 示 。 


Grid Visualization ЈЅОМ 





Model Designer 


Model Info Data Model Dimensions Measure 


ID Table Name 





Columns 

1 KYLIN_FLAT_DB WEB_ACCESS_FACT_TBL ['DAY" "SITEID" "OS" “REGIONID" "CITYID”] 
2 KYLIN_FLAT_DB REGION_TBL [REGIONNAME'] 

3 KYLIN_FLAT_DB CITY_TBL ['CITYNAME"] 





图 9-19 


(2) Visualization〈 可 视 化 ) : 可 视 化 事实 表 和 维度 表 的 关联 ， 如 图 9-20 所 示 。 
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Grid Visualization JSON 
left join ©@KILIN РАТ ПВ. REGION-TBL ө REGIOND 
 OKYLIN_FLAT_DB. WEB_ACCESS_FACT_TBL 
left join  @KYLIN_FLAT_DB.CITY_TBL GCI 
图 9-20 


(3) JSON (JSON 格式 ) : 以 JSON 格式 配置 了 Model 模型 中 的 表 关 联 、 维 度 字 段 、 度 量 
字段 、Cube 刷新 方式 、 过 滤 条 件 等 ， 如 图 9-21 所 示 。 


Grid Visualization JSON 





t 
"uuid": "4еа8826-Ь#07-44#4-а377-#2с087480907", 
"version": "1.5.2", 
"папе": "myproject_pvuv_model", 
"description": "", 
"lookups": [ 
t 
"table": "KYLIN_FLAT_DB.REGION_TBL", 
"join": { 


"type": "left", 
"primary_key": [ 
"REGIONID" 

L 
"foreign_key": [ 
"REGIONID" 


] 








图 9-21 
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9.2.5 “步骤 五 : Kylin 中 建立 Cube 
这 一 步 是 Kylin 构建 Cube 的 核心 过 程 ， 操 作 如 图 9-22 所 示 。 
[mvproiect pv __] | Insight Model Monitor System 


"RusHrOJec 2. 选 择 Model 
















Kylin 


3 选 和 Models 
Models Data Source 


中 New-4. 选 sNew Cube 


信 New Model 


© New Cube 


myproject_pvuv_model 












图 9-22 


按照 图 中 标记 的 顺序 操作 即 可 ， 最 后 一 步 我 们 选择 New Cube， 弹 出 界面 ， 如 图 9-23 所 示 。 





Cube Designer 


GO 一 2 3 4 5 6 7 


Cube Info 


Model Name * myproject_pvuv_model 
Cube Name Ө* 


pvuv_cube 


Notification Email List 


Notification Events @ ERROR > DISCARDED * SUCCEED 





Description | 














图 9-23 
选择 之 前 创建 好 的 Model， 然 后 填写 Cube 名 称 ， 如 果 你 需要 用 Email 通知 cube 的 事件 的 


话 ， 填 写 notification 相关 信息 ， 包 括 邮箱 列表 、 事 件 级 别 。 填 好 后 单 击 Next， 弹 出 界面 ， 用 来 
添加 维度 信息 ， 如 图 9-24 所 示 。 


жож 多 维 分 析 的 Cube 创建 实战 








3 4 5 6 7 

Cube Info Dmensions Aeasures Refresh Setting Advanced Setting Configuration Overwries Overview 

PTT E Auto Generator F а) 
10 Name Table Name туре Actions 
ДЗ KYLIN_FLAT_DB WEB_ACCESS_FACT_TBL ZJ Colum DAY 四 日 
2 省份 D KYLIN_FLAT_DB WEB_ACCESS_FACT_TBL = Column REGIONID апа 
3 城 iD КҮШМ FLAT_DB.WEB_ACCESS_FACT_TeL KZ Coum ciTviD Ba 
4 WRAD  KYLIN_FLAT_DB WEB_ACCESS_FACT_TBL с Column 5ІТЕІО B 
5 ”操作 系统 KYLIN_FLAT_DB6 .WEB_ACCESS_FACT_TBL кл Colum OS ап 
6 省份 名 称 。 KYLIN_FLAT_DB REGION_TBL = Derived ["'REGIONNAME'] ап 
7 ”城市 名 称 KYLIN_FLAT_DB.CITY_TBL = Derived ["СІТҮМАМЕ"] ап 

图 9-24 


这 里 你 可 以 使 用 “Add Dimension” 手 工 添加 ; 也 可 以 使 用 “Auto Generator” В) ИГЕ 
成 维度 信息 ， 你 只 要 从 弹出 的 页 面 选择 你 想 要 的 维度 字段 即 可 。 

大 家 应 该 也 注意 到 了 ， 这 里 的 维度 有 两 种 类 型 : normal 和 derived。 

其 实 dimension 类 型 的 定义 非常 重要 ， 也 决定 着 维度 组 合 的 数量 以 及 Cube 的 大 小 。 

在 一 个 多 维 数据 集合 中 ， 维 度 的 个 数 决定 着 维度 之 间 可 能 的 组 合 数 ， 而 每 一 个 维度 中 成 员 集 
合 的 大 小 决定 着 每 一 个 可 能 的 组 合 的 个 数 ， 例 如 有 三 个 普通 的 维度 A、B、C， 他 们 的 不 同 成 员 
数 分 别 为 10、100、1000， 那 么 一 个 维度 的 组 合 有 2 的 3 次 方 个 ， 分 别 是 { 空 、A、B、C、AB、 
BC、AC、ABC}， 每 一 个 成 员 我 们 称 为 cuboid (维度 的 组 合 ) ， 而 这 些 集合 的 成 员 组 合 个 数 分 
别 为 1、10、100、1000 10*100. 100*1000, 10*1000 和 10*100*1000 。 我 们 称 每 一 个 
dimension 中 不 同 成 员 个 数 为 Cardinality， 我 们 要 尽量 避免 存储 Cardinality 比较 高 的 维度 的 组 
合 ， 在 上 面 的 例子 中 我 们 可 以 不 缓存 BC 和 C 这 两 个 cuboid， 可 以 用 计算 的 方式 通过 ABC 中 成 
员 的 值 计 算出 BC 或 者 C 中 某 个 成 员 组 合 的 值 ， 这 相当 于 是 时 间 和 空间 的 一 个 权衡 吧 。 其 实 我 
们 也 可 以 从 “Data Source” 中 查看 维度 表 的 Dimension 的 Cardinality， 如 图 9-25 所 示 。 

















Models Data Source В к 
Table Schema:CITY_TBL 
Tables naam Columns 。 Exend отап 
Z KYUN_FLAT_ pa сри. 
| aarm os Names CE 
mre 
1 REGIOND varchar(286) 5 
图 9-25 
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(1) Derived 方式 
Derived 方式 从 有 衍生 维度 (derived dimensions) 的 查找 表 获取 维度 。 
如 果 在 某 张 维 度 表 上 有 多 个 维度 ， 该 维度 表 对 应 的 一 个 或 者 多 个 列 可 以 和 维度 表 的 主键 是 一 


对 一 的 ， 那 么 可 以 将 其 设置 为 Derived Dimension 〈 只 能 由 Lookup Table 的 列 生成 ) ， 在 Kylin 内 
部 会 将 其 统一 用 维度 表 的 主键 来 替换 ， 以 此 来 达到 降低 维度 组 合 的 数目 〈 减 少 cuboid 个 数 ) ， 
当然 在 一 定 程度 上 Derived Dimension 会 降低 查询 效率 ， 在 查询 时 ，Kylin 使 用 维度 表 主键 进行 
聚合 后 ， 再 通过 主键 和 真正 维度 列 的 映射 关系 做 一 次 转换 ， 在 Kylin 内 部 再 对 结果 集 做 一 次 聚合 
后 返回 给 用 户 。 


A 
тт 


明 。 
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如 图 9-26 所 示 ，ID 为 主键 ，A、B、C 与 ID 存在 一 对 一 关系 ， 那 么 只 有 ID 参与 维度 组 





， 并 生成 cuboid。 


Derived dimension reduces combination from 2Nto 2atthe 
cost of extra runtime aggregation. 


Normal Dimensions A,B,C are Derived by ID 
© 


Эч = | 





9-26 
(2) Normal 方式 
最 常见 的 类 型 ， 与 所 有 其 他 的 dimension 组 合 构成 Cuboid , 
1. Kylin 维度 的 优化 方式 简介 
后 面 会 有 专门 的 章节 介绍 Kylin 维度 的 优化 方式 Hierarchies、Derived 等 ) ， 这 里 就 简单 说 





添加 好 Dimension 维度 信息 之 后 ， 单 击 Next， 进 入 度量 指标 设计 界面 ， 如 图 9-27 所 示 . 








e Designer 
@— Q — : ° : 
Name Expression Parameters Return Type Actions 
COUNT, COUNT bigint 
се [лоо ë 加 日 
= 
«ө 





9-27 


这 里 可 以 通过 “+Measure” 图 标 进行 度量 值 的 增加 ， 比 如 我 们 配置 如 图 9-28 所 示 。 











° ; 
xpression Parameters. ReumTyoe Acuons 
Vave: Typeconstant ч пп 
Vae Pv Type colum 5 пп 
z |_vavecoorien, Typecolumn пап 
«ре ЩА 
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图 9-28 


我 们 这 里 是 对 pv 进行 sum 汇总 计算 ， 对 cookieid 进行 count distinct 去 重 过 滤 统 计 个 数 。 

根据 图 9-28 我 们 可 以 发 现 Kylin 会 为 每 一 个 cube 创建 一 个 聚合 函数 为 count(1) 的 度量 ， 它 
不 需要 关联 任何 列 。 用 户 自 定义 的 度量 字段 可 以 选择 SUM、MIN、MAX、COUNT、TOP N、 
RAW 和 COUNT DISTINCT 等 函数 处 理 ， 而 每 一 个 度量 字段 定义 时 还 可 以 选择 这 些 聚 合 函 数 的 
参数 ， 可 以 选择 常量 或 者 事实 表 的 某 一 列 ， 一 般 情况 下 我 们 都 会 选择 某 一 列 。 这 里 我 们 发 现 
Kylin 并 不 提供 AVG 等 相对 较 复杂 的 聚合 函数 ， 主 要 是 因为 它 需要 基于 缓存 的 cube 做 增 量 计算 
并 且 合 并 成 新 的 cube， 而 这 些 复杂 的 聚合 函数 并 不 能 简单 地 对 两 个 值 计算 之 后 得 到 新 的 值 ， 例 
如 需要 增 量 合并 的 两 个 cube 中 某 一 个 key 对 应 的 sum 值 分 别 为 A 和 B， 那 么 合并 之 后 的 则 为 
A+B， 而 如 果 此 时 的 聚合 函数 是 AVG， 那 么 我 们 必须 知道 这 个 key 的 count 和 sum 之 后 才能 做 
聚合 。 这 就 要 求 使 用 者 必须 自己 额外 进行 计算 。 














D 对 于 Kylin 152x 版 本 支持 的 聚合 函数 如 图 9.29 所 示 。 | 


py 


UV 





Edit Measure 


| Value PV Type column 


COUNT_DISTINCT 
Value cooKIEID Type:column 




















Name 
Expression @ SUM 
Param Type EE А Е 
Param Value Ө MIN 

MAx 
Retum Type COUNT 

COUNT DISTINCT 

TON 

Raw 

9-29 


107 


基于 Apache Kylin 构建 大 数据 分 析 平 台 


这 里 面 有 一 个 比较 特殊 的 函数 为 COUNT_DISTINCT， 当 我 们 选择 这 个 聚合 函数 时 ，Retum 
Туре ОЖ ) 提供 几 个 选项 ， 主 要 分 为 两 类 ， 不 精确 和 精确 类 型 ， 如 图 9-30 所 示 。 





Edit Measure 


Name 


Expression @ 


Param Type 


Param Value @ 


Retum Type 


Cancel 


COUNT_DISTINCT 
column 
COOKIEID 


Select an Option 
I 
Eror Rate < 9 75% 
Error Rate < 4 88% 
Error Rate < 2 44% | 近似 的 算法 
Error Rate < 1.72% 
EmorRate < 122% 

















Precisely (Only for Integer Family column) 











图 9-30 


以 前 版 本 的 Kylin 使 用 COUNT DISTINCT 时 ， 采 用 的 是 HyperLogLog( 近 似 的 Count 
Distinct 算法 )， 可 以 指定 错误 率 ， 错 误 率 越 低 ， 占 用 的 存储 越 大 ，Build 耗 时 越 长 。 从 1.5 版 本 中 
加 入 了 User Defined Aggregation Types， 即 用 户 自 定义 聚合 类 型 ， 后 来 Kylin 基于 Bit-Map 算法 实 
现 精确 Count Distinct， 但 也 仅仅 支持 整数 Integer 家 族 (比如 int，bigint) 的 字段 类 型 ， 字 符 等 类 


型 暂时 支持 。 


详 见 :https://issues.apache.org/jira/browse/KYLIN-1186 
补充 : 对 于 Kylin 1.5.3 版 本 来 说 ， 新 增 extended_column， 完 整 的 函数 如 图 9-31 所 示 。 





Edit Measure 


Name 


Expression @ 


Param Type 


Param Value @ 


Return Type 


Cancel 


SUM a| 


MAX 

COUNT 
COUNT_DISTINCT 
TOP_N 

RAW 
EXTENDED_COLUMN 





图 9-31 


继续 单 击 Next， 进 入 Cube 刷新 界面 设置 ， 如 图 9-32 所 示 。 
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2016-07-01 00:00:00 = 





图 9-32 


这 部 分 主要 是 用 来 设计 增 量 Cube 合并 信息 ， 默 认为 每 隔 7 天 就 merge 增 量 的 segments (每 
-个 segment 逻辑 上 对 应 着 一 个 物理 cube) ， 每 隔 28 天 merge 那些 前 面 7 天 合并 的 segments。 


当前 你 也 可 以 完全 自己 定义 merge 策略 。 
说 明 一 下 图 9-32 中 的 三 块 内 容 : 


© Auto Merge Thresholds: 根据 自己 的 需求 ,设计 merge 策略 。 


ә Retention Threshold: 默认 为 0， 保留 所 有 历史 的 Cube Segments。 当 然 你 也 可 以 设置 保 


留 最 新 的 多 少 天 Cube Segments。 


@ Partition Start Date: Cube 增 量 刷新 的 开始 时 间 ， 根 据 你 业务 需求 设计 从 哪 一 天 开始 计 


算计 算 Cube。 
2. Kylin 的 高 级 配置 


设计 完成 后 ， 单 击 Next， 进 入 Kylin 的 高 级 配置 界面 ， 如 图 9-33 所 示 。 由 于 此 界面 内 容 比 


较 多 ， 分 开 截 图 展示 并 介绍 。 


° © ° ° 


Cubo то Dmensore Measuros Rorosn Sonne 





Aggregation Groups 
Vist aggregation group pr more aboutaggregaton group 
w Aggregation Groups 


1 
DAY O8 * REGOND CITYIDD SMED™| 
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这 里 的 内 容 主要 是 对 Cube 的 维度 进行 优化 ， 简 单 介绍 一 下 。 


Aggregation Groups: 聚合 组 
这 是 一 个 将 维度 进行 分 组 ， 以 求 达到 降低 维度 组 合 数目 的 手段 。 不 同 分 组 的 维度 之 间 组 成 


的 Cuboid 数量 会 大 大 降低 ， 维 度 组 合 从 2 Й Cimin) 次 寡 至 多 能 降低 到 2 的 k RRE 2 的 mm 
ТКА 2 的 n KRE Group 的 优化 措施 与 查询 SQL 紧密 依赖 ， 可 以 说 是 为 了 查询 定制 的 优化 。 
如 果 查 询 的 维度 是 跨 Group 的 ， 那 么 Kylin 需要 以 较 大 的 代价 从 N-Cuboid 中 聚合 得 到 所 需要 的 
查询 结果 ， 这 需要 我 们 在 Cube 构建 时 仔细 考虑 和 评估 。 


换个 角度 来 说 ， 维 度 组 的 设置 主要 是 为 了 让 不 出 现在 一 个 查询 中 的 两 个 维度 不 计算 cuboid 


〈 通 过 划分 到 两 个 不 同 的 维度 组 中 ) ， 这 其 实 相当 于 把 一 个 cube 的 树 结构 划分 成 多 个 不 同 的 


树 ， 
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可 以 在 不 降低 查询 性 能 的 情况 下 减少 cuboid 的 计算 量 。 
对 于 每 个 聚合 组 内 部 又 存在 几 个 优化 方式 : 


@ Includes: 此 属性 用 于 指定 包含 在 Aggregation Groups 的 维度 。 属 性 的 值 必须 是 一 个 完 
整 的 子 集 维度 ， 尽 量 保持 维度 最 小 并 只 包括 必要 的 维度 。 

© Mandatory Dimensions: 如 果 每 次 查询 的 group by 中 都 会 携带 某 维度 ， 那 么 我 们 可 以 将 
这 个 dimension 设置 为 Mandatory， 这 样 就 可 以 将 维度 组 合 数量 减少 一 半 (cuboid 的 个 
数 减少 一 半 ) ， 如 图 9-34 所 示 。 


Mandatory dimension cuts cuboid combinations by half. 


Normal Dimensions А is Mandatory 


шшы 9 














图 9-34 
针对 这 种 情况 ， 后 续 每 一 次 group by 查询 时 都 要 携带 这 个 维度 ， 否 则 查询 就 会 报错 。 


@ Hierarchy Dimensions: 一 系列 具有 层次 关系 的 Dimension 组 成 一 个 Hierarchy， 比 如 
年 、 月 、 日 组 成 了 一 个 Hierarchy， 在 Cube 中 ， 如 果 不 设置 Hierarchy， 会 有 年 、 月 、 
日 、 年 月 、 年 日 、 月 日 6 个 cuboid， 但 是 设置 了 Hierarchy 之 后 Cuboid 增加 了 一 个 约 
Ж, APIK Level 的 Dimension 一 定 要 伴随 高 Level 的 Dimension 一 起 出 现 。 设 置 了 
Hierarchy Dimension 能 使 得 需要 计算 的 维度 组 合 大 大 减少 ， 如 图 9-35 所 示 . 
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A->B->Cis Hierarchy 
[ajs] c 
. 




















图 9-35 


比如 查询 时 指定 group by year, group by year,month 或 group by year,month,day 都 可 以 查询 ， 
如 果 指 定 group by month,day 就 不 可 以 查询 了 ， 直 接 报错 。 


© Joint Dimensions: 这 是 一 个 新 引入 的 规则 。 如 果 两 个 或 更 多 个 维度 是 “Joint”， 那 么 
任何 有 效 的 cuboid 要 么 都 不 包含 这 些 维度 ， 要 么 包含 所 有 维度 。 换 名 话说， 这 些 维度 
将 始终 在 一 起 。 当 多 维 数据 集 设计 肯定 有 某 些 维度 总 是 会 一 起 查询 ， 这 将 非常 有 用 。 
这 也 是 结合 修剪 上 可 能 不 太 使 用 维度 的 非常 好 的 方法 。 假 设 你 有 20 个 维度 ， 前 10 个 
维度 经 常 使 用 ， 后 者 10 不 太 可 能 被 使 用 ， 你 可 以 通过 为 “Joint” 加 入 后 10 个 维度 ， 
有 效 地 将 cuboid 数据 从 2 的 20 次 方 减少 到 2 的 11 次 方 。 


这 部 分 的 内 容 就 暂时 介绍 到 这 里 ， 接 着 我 们 再 看 一 下 高 级 部 分 的 其 他 内 容 ， 如 图 9-36 所 








示 。 
Rowkeys @ 
10 column Encoding Length Shard By 
Ө on dict a 5 false B 
ө os dict 0 false B 
Ө һєсомо dict " 0 false B 
Ө cmo dict "| o false g 
Ө smo dict „|! false B 
ч 





9-36 


这 里 对 HBase 的 гомкеу (Т) 进行 设计 ， 默 认 行 键 是 由 维度 的 值 进行 组 合 的 ， 你 也 可 以 
继续 添加 rowkey 组 合 的 字段 。 一 般 不 需要 修改 ， 使 用 默认 值 即 可 。 
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Kylin 的 Cube 数据 是 使 用 key-value 结构 存储 在 HBase 中 ， 其 中 key 是 每 一 个 维度 成 员 的 组 
合 值 ， 不 同 的 cuboid 下 面 的 key 的 结构 是 不 一 样 的 ， 例 如 cuboid={time，location，product} 下 面 
的 一 个 key 可 能 是 time='2016'，location='Nanjing'，product=ITPhone6s'， 那 么 这 个 key 就 可 以 写成 
2016:Nanjing:Iphone6s， 但 是 如 果 使 用 这 种 方式 的 话 会 出 现 很 多 重复 ， 所 以 一 般 情 况 下 我 们 会 把 
一 个 维度 下 的 所 有 成 员 取 出 来 ， 然 后 保存 在 一 个 数组 里 面 ， 使 用 数组 的 下 标 组 合成 为 一 个 key， 
这 样 可 以 大 大 节省 key 的 存储 空间 ，Kylin 也 使 用 了 相同 的 方法 ， 只 不 过 使 用 了 字典 树 (Trie 
BD ， 每 一 个 维度 的 字典 树 作为 Cube 的 元 数据 以 二 进 制 的 方式 存储 在 НВаѕе 中 。 

Rowkeys 的 Encoding 分 为 dict、int 和 fixed_length 三 种 方式 。 

dict 就 是 Dictionary 方式 ， 表 示 需 要 为 这 个 维度 建立 字典 树 。 

fixed_length 需要 设置 Length 大 小 ， 而 Length 则 意味 着 在 实际 存储 到 HBase 的 rowkey 时 使 
用 该 维度 的 前 Length 个 字符 作为 它 的 值 〈 截 取 每 一 个 成 员 值 只 保留 前 Length 个 字符 ) ， 一 般 情 
况 下 是 不 建议 设置 Length 的 ， 而 是 设置 为 dict， 只 有 当 cardinality 比较 大 时 并 且 只 需要 取 前 N 
个 字 节 就 可 以 表示 这 个 维度 时 才 建 议 设置 Length=N， 因 为 每 一 个 维度 的 dictionary 都 会 保存 在 内 
存 中 ， 如 果 字 典 树 占用 很 大 的 内 存 会 影响 Kylin 的 使 用 ， 甚 至 导致 OOM 的 问题 产生 。 对 于 
dictionary 的 编码 使 用 的 是 字典 树 ， 它 的 原理 实际 上 是 为 每 一 个 维度 成 员 赋 予 一 个 整数 的 id, 3: 
际 存储 的 时 候 存储 的 是 这 个 id 的 三 进 制 值 (使 用 int 最 多 占用 4 个 字 节 ) ， 并 且 保 证 每 一 个 id 
的 顺序 和 维度 成 员 的 顺序 相同 的 ， 例 如 AAA 的 id=1, AAB 的 id=2, ААС 的 id=3， 这 样 在 查询 
的 时 候 就 可 以 直接 根据 column>AAA 转换 成 idt>1， 方 便 HBase Coprocessor 的 处 理 。 


补充 : 对 于 Kylin 1.5.3 版 本 ， 新 增 了 date 和 time 编码 ， 比 如 我 们 Kylin 升级 到 1.5.3 版 本 
后 ， 这 里 的 字段 DAY 就 变 成 后 date 格式 编码 ， 如 图 9-37 所 示 。 


Rowkeys 














ID Column Encoding Length Shard By 
о ОАҮ date " 0 false B 
ө © dict aI false B 
Q 
Ө REcoNo г 0 false 目 
dict 
© cvo fixed_length 0 false 国 
int 
ө SITEID 0 false B 
图 9-37 


单 击 Next， 进 行 Cube 级 别 的 参数 设置 ， 如 图 9-38 所 示 。 
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Tips 


1. Cube level properties will overwrite 
configuration in kylin.prperties 








— 


9-38 
单 击 “+Property”， 可 以 设置 Cube 级 别 的 参数 值 ， 此 处 配置 的 参数 值 将 覆盖 kylin.prperties 
文件 中 的 值 。 
我 们 这 里 暂时 不 需要 设置 ， 直 接 单 击 Next， 进 入 最 后 一 步 ， 如 图 9-39 所 示 。 








Cube Designer 
Cute nio Dimensions Measures Retesh Sening  Advancod Setting Configuration Overites Омен 

шон Ма myproject_pvuv_model СЕСЕ 
Cube Мат руш. сие 
° 
FactTable KYUN_FLAT_DB WEB ACCESS_F 

ACT_TBL 
Lookup Ta 2 
ble 
Dimension 7 
в 
Measures 3 

ЦА E 
图 9-39 
列 出 创建 Cube 的 统计 信息 。 如 果 确 定 没有 问题 的 话 ， 直 接 单 击 “Save”， 在 弹出 的 页 面 中 


直接 单 击 “Yes”， 如 图 9-40 所 示 ， 完 成 整个 Cube 的 创建 。 





Are you sure to save the cube ? 


Cancel Yes 





图 9-40 
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查看 一 下 我 们 刚 创 建 的 Cube， 如 图 9-41 所 示 。 


Satus — CubaSizes Source Records Last Build Times Owners Create Time $ Actions 


owe ADMIN 20160725 00:14£06PST Acton. 
FLSE bi paS 





Tetat: 1 
Storage: 0.00 KB 


9-41 
如 图 9-41 所 示 ， 我 们 单 击 小 箭头 ， 查 看 更 详细 的 Cube 信息 ， 如 图 9-42 所 示 。 


Tubes 


Мате $ Status $ Cube Size$ Source Records Last Build Times Owner Create Time $ Actions | Admins Streaming 
@pwv_cube DiSABLEDI ooke с ААМ  2016-07-2500:14:06 PST | Acton- | acion- @ ШУ 


Grid SOL  JSON(Cubo) Асос: Notification НВәсо 























Cube Info тепп Mezsure Refresh Sett 








myproiect_pvuv_model 
Pvw_cube 


0 





TERROR" DISCARDED". "SUCCEED 





Description 





图 9-42 


上 面 用 方 框 标记 出 来 的 每 一 步 都 可 以 单 击 查看 ， 如 果 发 现 Cube 有 问题 的 话 ， 可 以 单 击 
Action 中 的 Edit 进行 修改 ， 当 然 如 果 你 觉得 对 这 个 Cube 设计 有 问题 的 话 ， 那 也 可 以 从 Action 中 
使 用 Drop 删除 。 


9.2.6 ”步骤 六 : Build Cube 
既然 Cube 已 经 创建 好 了 ， 那 么 就 开始 Build 吧 。 步 骤 如 图 9-43 所 示 。 
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Nmes — Samss CubeSzes SourceRecordss LastBuildTimes Owners Croato Timo $ Actions Admine 
Models Ор оде [OSABE] ОЮ 0 ADMN — 201507.25001405 PST [ Actor 
тре рам, modei ži 


Storage: 0.00 KB 





图 9-43 


对 一 些 常见 的 操作 ， 比 如 创建 Project、 创 建 Model、 创 建 Cube、 构 建 Cube 等 ， 后 续 我 们 不 
再 截图 说 明 ， 以 节省 纸张 。 对 于 一 些 特殊 的 或 者 未 介绍 过 的 操作 ， 还 是 需要 截图 展示 并 加 以 说 
明 。 到 目前 为 止 ， 相 信 朋 友 们 也 应 该 熟悉 这 些 常见 操作 了 ， 如 果 部 分 内 容 忘 记 的 话 ， 请 查阅 前 面 
的 演示 过 程 。 

我 们 Build 时 ， 弹 出 的 页 面 显 示 默 认 开 始 时 间 为 : 2016-07-01 00:00:00， 这 个 是 我 们 在 创建 
Cube 时 指定 的 。 为 了 演示 ， 我 们 将 End Date 设置 为 2016-07-02 00:00:00， 然 后 Submit, 

这 里 我 们 必须 对 Cube 上 能 够 执行 哪些 操作 都 说 明 一 遍 ， 方 便 大 家 深入 理解 ， 我 们 也 尽量 做 
到 每 个 知识 点 都 不 遗漏 。 根 据 图 9-41 中 Action 下 拉 框 选项 显示 Cube 操作 有 : 


(1) Drop 
删除 此 Cube 


(2) Edit 
如 果 发 现 Cube 设计 有 问题 ， 可 以 选择 Edit 进行 修改 。 
(3) Build 
执行 构建 Cube 操作 ， 如 果 是 增 量 Cube， 则 需要 指定 开始 和 结束 时 间 ， 这 两 个 时 间 区 间 标 识 
本 次 构建 的 segment 的 数据 源 只 选择 这 个 时 间 范 围 内 的 数据 。 对 于 Build 操作 而 言 ，startTime 是 
不 需要 的 ， 因 为 它 总 是 会 选择 最 后 一 个 segment 的 结束 时 间作 为 当前 segment 的 起 始 时 间 。 
由 于 Kylin 基于 预计 算 的 方式 提供 数据 查询 ， 构 建 操作 是 指 将 原始 数据 (存储 在 Hadoop 
中 ， 通 过 Hive 获取 ) 转换 成 目标 数据 〈 存 储 在 HBase 中 ) 的 过 程 。 


(4) Refresh 
对 某 个 已 经 构建 过 的 Cube Segment， 重 新 从 数据 源 抽取 数据 并 构建 ， 从 而 获得 更 新 。 


(5) Merge 
对 于 增 量 Cube， 即 设置 分 区 字段 ， 这 样 的 Cube 就 可 以 进行 多 次 Build， 每 一 次 的 Build 会 
生成 一 个 segment， 每 一 个 segment 对 应 着 一 个 时 间 区 间 的 Cube， 这 些 segment 的 时 间 区 间 是 连 
续 并 且 不 重合 的 ， 对 于 拥有 多 个 segment 的 cube 可 以 执行 merge， 相 当 于 将 一 段 时 间 区 间 内 部 的 
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segment 合并 成 一 个 ， 可 以 减少 Segment 的 数量 ， 同 时 减少 Cube 的 存储 空间 。 


(6) Enable 
使 Cube 生效 。 如 果 Cube 处 于 disabled 状态 时 改变 Cube Schema， 那 么 Cube 的 所 有 
segments 将 因为 Data 和 Schema 不 匹配 而 被 丢弃 。 


(7) Disabled 
使 Cube 失效 ， 此 时 无 法 再 通过 SQL 查询 Cube 数据 。 如 果 再 执行 Enable 的 话 ， 就 可 以 继续 
查询 了 。 


(8) Purge 
将 Cube 的 所 有 Cube Segment 删除 。 


(9) Clone 
如 果 我 们 想 保 留 原 先 已 经 创建 好 的 Cube， 但 是 又 想 创 建 一 个 类 似 的 Cube， 那 么 此 时 就 可 以 
使 用 Clone 功能 重新 克隆 一 个 一 模 一 样 的 Cube， 然 后 对 这 个 Cube 进行 修改 等 操作 。 
对 于 Cube 不 同 的 状态 ， 能 够 执行 的 Action 也 是 不 同 的 ， 比 如 Cube 处 于 Ready 状态 时 可 以 
执行 的 Action， 如 图 9-44 所 示 。 





Last Build Time 2 Owner Create Time 2 Actions Admins Streaming 


2016-07-25 03:1337 ADMIN 2016-07-2500140в [WS] awone CID 
PsT 


orage: 20.00 KB 





图 9-44 








ү 如 果 Cube 的 状态 变 成 “Ready” 意 味 着 已 经 准备 好 对 外 SQL 查询 服务 。 J 











下 面 我 们 切换 到 Monitor 界面 ， 查 看 刚才 提交 的 Job， 如 图 9-45 所 示 。 





NEW о PENDING о RUNNING O Нмзнеп G ERROR 






Cubos  Progrosse Last Modified Time-  Dwratione Actions 


pavate (р ЕЕ 














9-45 
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通过 指定 Project 名 称 ， 可 以 查看 指定 工程 下 面 的 所 有 作业 ， 从 图 9-45 中 可 以 看 出 我 们 刚 提 
交 的 作业 还 在 执行 。 对 于 图 中 最 右边 的 内 容 ， 也 就 是 整个 Cube 构建 的 全 部 过 程 ， 我 们 下 个 章节 
会 对 其 中 每 一 步 执行 过 程 都 加 以 详细 说 明 。 

等 作业 执行 完成 后 ，Monitor 中 的 Job 状态 显示 为 FINISHED， 并 且 Progress 显示 为 100%。 

这 里 补充 一 下 Job 的 几 种 状态 : 


МЕМ: 新 任务 ， 刚 刚 创建 。 
PENDING: 等 待 被 调度 执行 的 任务 。 
RUNNING: 正在 运行 的 任务 。 
FINISHED: 正常 完成 的 任务 ( 终 态 ) 。 
ERROR: 执行 出 错 的 任务 。 
DISCARDED: 丢弃 的 任务 ( 终 态 ) 。 


此 外 ， 我 们 也 可 以 看 到 Cube 的 状态 显示 为 Ready 了 ， 如 图 9-46 所 示 。 


Kylin Insight Model Monitor System 





日 
Models Data Source 一 
- Cubes 
+ New- 
Name $ Status $ Cube Size$ Sourcd 
Models © pvuv_cube 20.00KB 5 
myproject_pvuv_model Total: 1 


Storage: 20.00 KB 








图 9-46 


Build Cube 完成 后 ， 我 们 可 以 从 Cube 的 详细 信息 中 看 到 HBase 的 信息 了 (Build Cube 之 前 
没有 任何 信息 ) ， 如 图 9-47 所 示 。 
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+New- 


Models 


myprolecs рушу толе! 





9-47 


此 Cube 数据 存储 在 HBase 的 表 KYLIN СЗ7СММЅҮХА 中 ，2 个 Region， 小 于 1MB， 并 且 
包含 开始 和 结束 时 间 。 我 们 登录 到 HBase 环境 中 查看 : 





可 以 看 到 表 KYLIN_C37CNMSYXA 是 存在 的 。 


927 步 又 七 :查询 Cube 
我 们 通过 Insight 页 面 来 验证 Cube 构建 的 结果 是 否 正 常 ， 比 如 执行 如 下 SQL 语句 : 








当初 设计 表 结构 时 ， 故 意 挑选 了 DAY 这 个 字段 名 称 ， 其 实在 Hive 里 面 是 没有 问题 的 ,但 
是 在 Kylin 里 面 ， 这 个 字段 是 关键 字 ， 所 以 查询 时 需要 使 用 双 引 号 。 





查询 结果 如 图 9-48 所 示 。 
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NewOuey Saved Queries Query Hisory 


Lun somo 


Sas: [ш r) 

Бап Time: 2016-07-25 033654 PST Duration: 028s Е saw; 
Cubes: pvuv_cube 

Visualzation @Expot 7 


(2016070 Жї 
20607-0 ML 
20100701 上 海 虹口 





图 9-48 


然后 ， 我 们 在 Hive 里 面 进行 验证 ， 如 下 : 





可 以 看 到 Kylin 里 面具 使 用 0.28 秒 ，Hive 中 使 用 了 34.595 秒 ， 对 于 Kylin 预 处 理 过 后 查询 
速度 还 是 不 错 的 。 

到 此 为 止 ， 整 个 Cube 的 创建 、 构 建 、 查 询 等 已 经 完整 介绍 完了 ， 而 且 对 每 个 细节 都 进行 了 
详解 。 其 实 细心 聪明 的 朋友 们 ， 已 经 发 现 对 于 Build Cube 的 过 程 和 Cube 的 查询 流程 都 还 没有 细 
说 。 朋 友 们 说 的 没 错 ， 接 下 来 两 个 章节 我 们 就 会 为 朋友 们 揭秘 Kylin 中 的 Cube 到 底 是 如 何 计算 
和 Cube 如 何 查询 的 。 

朋友 们 赶紧 喝 点 白开水 或 咖啡 ,休息 一 下 ， 准 备 进 入 下 一 章节 吧 。 
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本 章 我 们 会 为 朋友 们 揭秘 Kylin 中 的 Cube 到 底 是 如 何 Build 出 来 的 。 

Build 操作 是 构建 一 个 Cube 指定 时 间 区 间 的 数据 ， 由 于 Kylin 基于 预计 算 的 方式 提供 数据 查 
询 ， 构 建 操 作 是 指 将 原始 数据 (存储 在 Hadoop HDFS 中 ， 通 过 Hive 获取 ) 转换 成 目标 数据 CF 
储 在 HBase 中 ) 的 过 程 。 主 要 的 步骤 可 以 按照 顺序 分 为 四 个 阶段 : 


ё 

















根据 用 户 的 Cube 信息 计算 出 多 个 cuboid 文件 。 
根据 cuboid 文件 生成 htable。 

更 新 cube 信息 。 

回收 临时 文件 。 


个 阶段 操作 的 输入 都 需要 依赖 于 上 一 步 的 输出 ， 所 以 这 些 操作 全 是 顺序 执行 的 。 


流程 分 析 


我 们 选择 上 一 章节 完成 的 Job 进行 整个 流程 分 析 ， 如 图 10-1 所 示 。 





Jobs Siow Queries 
Cube Name: Q “"obsin:[LAST ONE WEEK "] 目 NEW (J PENDING © RUNNING [J FINISHED 
ERROR 日 blscARDED EJ 
Job Name $ Cube$ Progress Last Modified Times Duration Actions 
pvuv_cube - риу со 0) 2016-07-25 03:13:49P 5.97 mins  Acton~ D 
20160701000000_20160702000000 - BUILD- е 
PDT 2016-07-25 04:07:30 


Kylin Insight Model Monitor System 





图 10-1 








单 击 日 查看 更 详细 的 流程 ， 由 于 流程 内 容 比 较 多 ， 我 们 分 开 进行 说 明 。 














章 Build Cube 





1. 流程 一 : 作业 整体 描述 


Job 作业 的 整体 描述 信息 ， 比 如 Job 名 称 、Job 的 ID、Job 状态 、 耗 时 、MapReduce 等 待 时 
长 ， 如 图 10-2 所 示 。 








| 对 于 Kylin 1.5.3 版 本 开始 ，“Detail Information” 作 业 整 体 描述 流程 之 后 增加 了 一 个 流程 ， 
\ 名 称 为 “Count Source Table”， 用 来 统计 事实 表 的 记录 总 行 数 ， 如 图 10-3 所 示 。 














© 上 Detail Information е 


Job Мате pvuv_cube - 
20160701000000_20160 
702000000 - BUILD - 
PDT 2016-07-25 


04:07:30 
Job ID Sfec32c8-1435-4b7a- 
8309-dbbee32d7a6f 
status 
Duration 5.97 mins 


MapReduce Wai 1.88 mins 
ting 


#1 Step Name: Count Source Table 


Data Size: 0.00 KB 


Duration: 9.36 mins 


Ө 65725 03:07:50 PST 


#1 Step Name: Create Intermediate Fiat Hve a = 








图 10-2 Р 10-3 
单 击 钥匙 图 标 ， 内 容 如 图 10-4 所 示 。 


Parameters 


hive -e "SET dfs.replication=2; 

SET hive.exec. compress output=true; 

SET hive.auto. convert. join.noconditionaltask=true; 

SET hive.auto. convert. join.noconditionaltask.size=100000000; 

SET mapreduce.map.output.compress.codec=org.apache.hadoop. io. compress-SnappyCodec; 

SET mapreduce.output,fileoutputformat,compress.codec=org.apache,hadoop. io.compress.SnappyCodec; 
SET mapred output compression. type=BLOCK; 

SET mapreduce. job, split,metainfo,maxsize=-1; 


set hive.exec. compress.output=false; 


dfs -mkdir -p /kylin/kylin_metadata/kylin-@cdc43d9-3cce-466d-a60d-358de9ff694c/row_count’; 

INSERT OVERWRITE DIRECTORY '/kylin/kylin_metadata/kylin-@cdc43d9-3cce-466d-a6@d-358de9ff694c/row_count" SELECT count(*) FROM DEFAULT.KY 
LIN_SALES KYLIN_SALES 

WHERE (KYLIN_SALES.PART_DT >= '2012-02-01° AND KYLIN_SALES.PART_DT < "2012-02-02" ) 











图 104 


可 以 看 到 ， 把 构建 Cube 的 来 源 表 的 总 行 数 写 到 指定 的 HDFS 文件 中 。 
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2. 流程 二 : 生成 中 间 | 临时 数据 (Create Intermediate Flat Hive Table ) 


这 一 步 的 操作 是 根据 Cube 设计 中 的 定义 生成 原始 数据 ， 这 里 会 新 创建 一 个 Hive 外 部 表 ， 
然后 再 根据 Cube 中 定义 的 星 型 模型 ， 查 询 出 维度 (对 于 Derived 类 型 的 维度 使 用 的 是 外 键 》 和 
度量 的 值 并 插入 到 新 创建 的 表 中 ， 表 的 数据 文件 〈 存 储 在 HDFS) 作为 下 一 个 子 任务 的 输入 ， 它 
首先 根据 维度 中 的 列 和 度量 中 作为 参数 的 列 得 到 需要 出 现在 该 表 中 的 列 ， 然 后 执行 三 步 Hive 操 
作 ， 这 三 步 Hive 操作 是 通过 hive -e 的 方式 执行 的 shel 命令 ， 我 们 单 击 图 10-5 所 示 的 钥匙 图 
标 ， 就 可 以 查看 完整 内 容 ， 这 里 我 们 只 展示 整体 逻辑 即 可 。 


Start 2016-07-25 03:07:50 PST 


Ө o 2016-07-25 03:07:50 PST 


#1 Step Name: Create Intermediate Flat Hive 
Table 

Data Size: 0.53 KB 

Duration: 0.75 mins 


aBa 





图 10-5 


(1) 第 一 步 : 如 果 临 时 表 存在 就 删除 





(2) 第 二 步 : 创建 外 部 表 





其 中 表 名 是 根据 当前 的 Cube 名 称 和 segment 的 uuid( 增 量 Cube 为 时 间 范 围 ) 生成 的 ， 
location 是 当前 job 的 临时 文件 ， 只 有 当 insert 插入 数据 的 时 候 才 会 创建 ， 注 意 这 里 每 一 行 的 分 隔 
符 指定 的 是 N177' (目前 是 代码 固定 的 ， 十 进 制 为 127) 。 








(3) 第 三 步 : 插入 数据 
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在 执行 插入 数据 之 前 ， 首 先 设置 一 些 配置 项 ， 这 些 配 置 项 通过 hive 的 SET 命令 设置 ， 是 根 
据 这 个 Cube 的 Job 的 配置 文件 (位 于 Kylin 的 conf 目录 下 ，kylin_job_ confxml) 设置 的 。 

最 后 执行 的 是 INSERT OVERWRITE TABLE xxx SELECT xxxx 语句 ，SELECT 子 名 中选 出 
Cube 星 状 模型 中 事实 表 与 维度 表 按 照 设 置 的 方式 join 之 后 出 现在 维度 或 者 度量 参数 中 的 列 〈 特 
殊 处 理 derived 列 ) ， 然 后 再 加 上 用 户 设置 的 where 条 件 和 partition 的 时 间 条 件 (根据 输入 Build 
的 参数 ) 。 


这 一 步 执行 完成 之 后 location 指定 的 目录 下 就 有 了 原始 数据 的 文件 ， 为 接 下 来 的 任务 提供 了 
输入 。 


3. 流程 三 : 创建 事实 表 的 Distinct Columns 文件 ( Extract Fact Table Distinct Columns ) 
创建 事实 表 的 Distinct Columns 文件 如 图 10-6 所 示 。 


© © 2016-07-25 03:08:36 PST 


#2 Step Name: Extract Fact Table Distinct 
Columns 

Data Size: 3.37 KB 

Duration: 0.73 mins 





图 10-6 


我 们 可 以 先 单 击 钥匙 图 标 查看 参数 内 容 : 
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根据 参数 output 的 值 ， 可 以 查看 这 一 步 输出 结果 我们 省 略 了 一 些 无 关 紧要 的 输出 〉: 


这 一 步 是 根据 流程 二 中 生成 的 hive 临时 表 作 为 输入 ， 计 算出 表 中 的 每 一 个 出 现在 事实 表 中 
的 维度 和 度量 的 distinct 值 ， 并 写 入 到 以 列 命名 的 文件 中 。 如 果 某 一 个 维度 列 的 distinct 值 比较 
大 ， 那 么 可 能 导致 MapReduce 任务 执行 过 程 中 的 OOM- 

4. 流程 四 : 构建 维度 词典 ( Build Dimension Dictionary ) 

构建 维度 词典 如 图 10-7 所 示 。 
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#3 Step Name: Build Dimension Dictionary 
Duration: 0.03 mins 


aB 





图 10-7 


依旧 我 们 单 击 钥匙 图 标 ， 查 看 参数 内 容 : 


这 一 步 是 根据 上 一 步 〈 流 程 三 ) 生成 的 distinct column 文件 和 维度 表 计 算出 所 有 维度 的 词典 
信息 。 词 典 是 为 了 节约 存储 而 设计 的 ， 用 于 将 一 个 成 员 值 编码 成 一 个 整数 类 型 并 且 可 以 通过 整数 
值 获取 到 原始 成 员 值 ， 每 一 个 cuboid 的 成 员 以 一 个 key-value 形式 存储 在 HBase 中 ，key 是 维度 
成 员 的 组 合 ， 但 是 一 般 情况 下 维度 是 一 些 字符 串 之 类 的 值 ， 所 以 可 以 通过 将 每 一 个 维度 值 转换 成 
唯一 整数 而 减少 内 存 占 用 ， 在 从 HBase 查找 出 对 应 的 key 之 后 再 根据 词典 获取 真正 的 成 员 值 。 

这 一 步 是 在 Kylin 进程 内 的 一 个 线程 中 执行 的 ， 它 会 创建 所 有 维度 的 dictionary。 如 果 是 事 
实 表 上 的 维度 则 可 以 从 上 一 步 生 成 的 文件 (HDFS 文件 ) 中 读 取 该 列 的 distinct 成 员 值 ， 否 则 需 
要 从 原始 的 Hive 表 中 读 取 每 一 列 的 信息 ， 根 据 不 同 的 源 (HDFS 文件 或 者 Hive Ж) 获取 所 有 的 
列 去 重 之 后 的 成 员 列 表 ， 然 后 根据 这 个 列表 生成 dictionary。Kylin 中 针对 不 同类 型 的 列 使 用 不 同 
的 实现 方式 ， 对 于 time 之 类 的 使 用 DateStrDictionary。 针 对 数值 型 的 使 用 NumberDictionary， 其 
余 的 都 使 用 一 般 的 TrieDictionary (字典 树 ) 。 这 些 dictionary 会 作为 Cube 的 元 数据 存储 在 Kylin 
元 数据 库 里 面 ， 当 执行 Query 的 时 候 进行 转换 。 

之 后 ， 还 需要 计算 维度 表 的 SnapshotTable， 每 一 个 snapshot 和 一 个 Hive 维度 表 对 应 ， 生 成 
的 过 程 是 : 首先 从 原始 的 Hive 维度 表 中 顺序 地 读 取 每 一 行 每 一 列 的 值 ， 然 后 使 用 TrieDictionary 
方式 对 这 些 所 有 的 值 进 行 编码 ， 这 样 每 一 行 每 一 列 的 值 都 能 够 得 到 一 个 编码 之 后 的 id (相同 的 
值 id 也 相同 ) ， 然 后 再 次 读 取 原始 表 中 每 一 行 的 值 ， 将 每 一 列 的 值 使 用 编码 之 后 的 id 进行 替 
换 ， 得 到 了 一 个 只 有 id 的 新 表 ， 这 样 同时 保存 这 个 新 表 和 dictionary 对 象 (id 和 值得 映射 关系 ) 
就 能 够 保存 整个 维度 表 了 ， 同 样 ，Kylin 也 会 将 这 个 数据 存储 在 HBase 的 元 数据 表 中 。 

需要 注意 的 问题 : 这 个 流程 中 的 操作 会 在 Kylin 进程 的 一 个 线程 中 执行 的 ， 也 会 加 载 某 一 个 
维度 的 所 有 distinct 成 员 到 内 存 ， 如 果 某 一 个 维度 的 Cardinality 比较 大 ， 可 能 会 导致 内 存 出 现 
OOM. 


5. 流程 五 : 保存 Cuboid 的 统计 信息 ( Save Cuboid Statistics ) 
保存 Cuboid 的 统计 信息 如 图 10-8 所 示 。 
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#4 Step Мате: Save Cuboid Statistics 
Duration: 0.00 mins 


B 





10-8 
6. 流程 六 : 创建 HTable ( Create HTable ) 
创建 HTable 如 图 10-9 所 示 。 


Ө 902060725030022 PST 


#5 Step Name: Create HTable 
Duration: 0.06 mins 


aB 





图 10-9 
单 击 钥 是 图标 查看 参数 内 容 : 





这 一 步 非常 简单 ， 就 是 创建 HTable。 
创建 一 个 HTable 的 时 候 需 要 考虑 : 


ө FRAIRE. 

ө 每 一 个 列 族 的 压缩 方式 。 

© 部署 coprocessor。 

© HTable 中 每 一 个 region 的 大 小 。 

列 族 的 设置 是 根据 用 户 创建 Cube 的 时 候 设置 的 ， 在 HBase 中 存储 的 数据 key 是 维度 成 员 的 
HE, уаше 是 对 应 聚合 函数 的 结果 。 在 创建 HTable 时 可 以 指定 使 用 压缩 方式 ， 支 持 GZ. 
LZ4、LZO、SNAPPY 几 种 压缩 方式 。Kylin 强 依赖 于 HBase 的 coprocessor， 所 以 需要 创建 
HTable 为 该 表 部 署 coprocessor， 这 个 文件 会 首先 上 传 到 HBase 所 在 的 HDFS 上 ， 然 后 在 表 的 元 
信息 中 关联 。 比 如 我 们 可 以 通过 HBase Shell 方式 登录 到 HBase 中 查看 表 结构 : 
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从 表 结构 可 以 看 出 以 下 信息 : 


© Coprocessor 路 径 : 


@ KYLIN_HOST 
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@ SEGMENT 


@ SPLIT POLICY 
ө 。” 列 族 相关 信息 


Fl 和 F2 两 个 列 族 ，FAST_DIFF 方式 进行 数据 块 编码 ， 版 本 数 为 1: 压缩 方式 为 SNAPPY 
等 信息 。 


т. 流程 七 : 计算 生成 Base Cuboid 数据 文件 ( Build Base Cuboid Data ) 
计算 生成 Base Cuboid 数据 文件 如 图 10-10 所 示 。 


© © 2016-07-25 03:09:25 PST 


#6 Step Name: Build Base Cuboid Data 
Data Size: 0.27 KB 
Duration: 0.57 mins 


a = 





图 10-10 


单 击 钥匙 指标 ， 查 看 参数 内 容 : 





可 以 看 到 输入 的 是 FLAT_TABLE， 即 流程 二 中 的 中 间 临 时 表 。 

首先 要 让 大 家 明白 什么 是 Base Cuboid， 这 个 很 重要 。 

举 个 例子 ， 假 设 一 个 Cube 包含 了 四 个 维度 : A、B、C 和 D， 那 么 这 四 个 维度 成 员 间 的 所 有 
可 能 的 组 合 就 是 Base Cuboid， 这 就 类 似 在 查询 的 时 候 指 定 了 select count (1) from xxx group by 
A,B,C,D。 这 个 查询 结果 的 个 数 就 是 Base Cuboid 集合 的 成 员 数 。 这 一 步 也 是 通过 一 个 


128 


第 10 章 Build Сире 的 来 龙 去 脉 


MapReduce 任务 完成 的 ， 输 入 的 是 临时 表 的 路 径 和 分 隔 符 ，Map 对 于 每 一 行 首先 进行 split， 然 
后 获取 每 一 个 维度 列 的 值 组 合作 为 rrwKey， 但 是 rowKey 并 不 是 简单 的 这 些 维度 成 员 的 内 容 组 
合 ， 而 是 首先 将 这 些 内 容 从 dictionary 中 查找 出 对 应 的 id， 然 后 组 合 这 些 id 得 到 rowKey， 这 样 
可 以 大 大 缩短 HBase 的 存储 空间 ， 提 升 查找 性 能 。 然 后 查找 该 行 中 的 度量 列 ， 根 据 Cube 定义 中 
度量 的 函数 返回 对 该 列 计算 之 后 的 值 。 这 个 MR 任务 还 会 执行 combiner 过 程 ， 执 行 逻辑 和 
reducer 相同 ， 在 reducer 中 的 key 是 一 个 rowKey，value 是 相同 的 rowKey 的 measure 组 合 的 数 
组 ，reducer 会 分 解 出 每 一 个 measure 的 值 ， 然 后 再 根据 定义 该 度量 使 用 的 聚合 函数 计算 得 到 这 
个 rowKey 的 结果 ， 其 实 这 已 经 类 似 于 HBase 存储 的 格式 了 。 


8. 流程 八 : 计算 第 N 层 的 Cuboid 文件 ( Build N-Dimension Cuboid Data ) 
计算 第 N 层 的 Cuboid 文件 如 图 10-11、 图 10-12 所 示 。 
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#7 Step Name: Build N-Dimension Cuboid Data 

4-Dimension 

Data Size: 0.42 KB 

Duration: 0.57 mins 

a Da 

© © 2016-07-25 03:11:42 PST 

° © 2016-07-25 03. 10:34 PST #10 Step Name: Вша N-Dimension Cuboid Data 
1-Dmension 

Data Size: 039 KB 

Duration: 0.58 mins 


apne 


#8 Step Name: Build N-Dimension Cubold Data 
3-Dimension 

Data Size: 0.59 KB 

Duration: 0.56 mins 


apa 

© © 2016-07-25 03:12:16 PST 

© © 2016-07-25 03:11:08 PST #11 Step Name: Buld N-Dimension Cuboid Data 
0-Dmension 

Data Size: 012 KB 

Duration: 0.57 mins 


#9 Step Name: Build N-Dimension Cubold Data 
2-Dimension 

Data Size 0.56 КВ 

Duration: 0.57 mins 











ana 
图 10-11 图 10-12 


这 个 流程 由 多 个 步骤 组 成 ， 步 骤 的 数量 是 根据 维度 组 合 的 cuboid 的 总 数 决定 的 。 
我 们 先 看 一 张 图 来 理解 ， 如 图 10-13 所 示 。 
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图 10-13 
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Full Data 代表 是 的 Base Cuboid。 根 据 图 10-13 所 示 ， 上 一 层 Cuboid 执行 MapReduce 任务 的 
输入 是 下 一 层 Cuboid 计算 的 输出 ， 由 于 最 底层 的 Cuboid (Base Cuboid) 已 经 计算 完成 ， 所 以 这 
几 步 不 需要 依赖 于 任何 的 Hive 信息 ， 它 的 reducer 和 Base Cuboid 的 reducer 过 程 基 本 一 样 ( 相 
18] rowkey 的 measure 执行 聚合 运算 ) ，mapper 的 过 程 只 需要 根据 这 一 行 输入 的 key (例如 A. 
B. C. D 中 四 个 成 员 的 组 合 ) 获取 可 能 的 下 一 层 的 组 合 〈 比 如 只 有 A B. C 和 B. C. D 两 
种 ) ， 那 么 只 需要 将 这 些 可 能 的 组 合 提取 出 来 作为 新 的 key, value 不 变 进行 输出 就 可 以 了 。 

我 们 这 里 看 一 下 Build Base Cuboid Data 和 Build N-Dimension Cuboid Data : 4-Dimension 的 参 
数 内 容 : 





根据 上 面 两 个 步骤 的 参数 内 容 ， 可 以 看 出 上 一 层 Cuboid 执行 MapReduce 任务 的 输入 是 下 一 
层 Cuboid 计算 的 输出 〈 即 4-DimensionData 数据 来 源 于 Base Cuboid Data) 。 
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最 后 我 们 看 一 下 这 个 流程 生成 的 HDFS 数据 文件 ， 即 每 个 Cuboid 对 应 一 个 目录 和 数据 文 
件 ， 如 图 10-14 所 示 。 


TTI ETI петайаса/куї1п-5Тес31сЕ-1 








ЄЗЇЧ7аб?/рүпу_спБе/сыБо1@/ 














г) kylin kynn о 2018-07-35 19:12 /kylin2/kylin metadata/kylin-Sfec32c8-1455-4b7a-8309-dtbee32d7a6£/pvuv_cube/cuboid/0d_cuboid 
2 куша куша 0 2016-07-25 19:12 /Kylin2/Kylin necadaca/Yylin-sfec32c6-1435-4b7a-5309-dcbee32d7a6E/pvuv_cube/ cuboid/ dd_cuboid/_50CCESS 
2 kylin kylin 120 2016-07-25 19:12 /kylin2/kylin metadata/kylin-Sfec3208-1495-4b7a-£309-dbbes32d7a62/pvav_cute/cuboid/0d_cuboid/part-r-00000 
= lin Kylin 0 2016-07-25 19:12 /ylin2/Kylin neradaca/xy1:n-Sfec32c8-1435-4b7a-830S-dtbes32d7a6#/pvuv_cube/cuboid/1d cuboid 
2 Kylin куша 0 2016-07-25 19:12 /xylin2/rylin nesadara/rylin-Stec32c8-1435-4b7a-8309-debes32d7a6f/pvav_cube/cuboid/14_caboid/_SUCCESS 
2 Kylin kylin 400 2016-07-25 19:12 /xylin2/rylin mecadata/rylin-Sfec32c8-1425-4b7a-$309-dtbee$2d7a6f/pvav_cube/cuboid/1d_cubotd/part-r-00000 
= kylin куша 0 2016-07-25 19:11 /kylin2/kylin nevadara/Yylin-Sfec32c6-1435-4b7a-8309-debee32d7a65/pvuv_cube/ cuboid/2d_cuboid 
2 kylin kylin 0 2016-07-25 19:11 /kylin2/kylin metadata/kylin-Sfec32c8-1455-4b7a-8309-dtbee32d7a6£/pvav_cute/cuboid/2d_cuboid/_SUCCESS 
2 mlin куша 574 2016-07-25 19:11 /ylin2/Kylin metadata/kylin-Sfec32c8-1455-4b7a-6309-dbbee32d7a6f/pvav_cube/cuboid/2d_cuboid/part-r-00000 
= куца Kylin 19:10 /kylin2/kylin necadara/Kylin-Stec3208-1435-4b7a-8306-dcbes32d7a6F/pvav_cube/cuboid/3d_caboid 
2 kylin kylin 19:10 /eyl1n2/kyl1n metadata/rylin-Sfec32c8-1455-4b7a-8309-debee3247a6£/pvav_cube/cuboid/3d_cubotd/_SUCCESS 
2 куа куша 606 2016-07-25 19:10 /xylin2/rylin mesadara/Kylin-stec32c8-1435-4b7a-8306-debes32d7a6f/pruv_cube/cuboid/3d_caboid/Part-r-00000 
= kylin kylin 0 2016-07-25 19:10 /kylin2/kylin metadata/kylin-Sfec32c8-1455-4b7a-8309-dtbee32d7a6f/pvav_cube/cuboid/4d_cuboid 
2 kylin куша 0 2016-07-25 19:10 /ylin2/Kylin mecadata/rylin-5fec3208-1435-4b7a-#309-dtbees2d7a6£/pvav_cube/cuboid/43_cuboid/_SUCCESS 
2 куа куша 429 2016-07-25 19:10 /kylin2/kylin петайата/кү]:п-51ес3208-1435-47а-309-8%рееЗ2а7а62/рушу cubte/cuboid/4d сірої /ратт-г-00000 
= куил Kylin 0 2016-07-25 19:09 /Ilin2/iy11n_mecadara/Iy11n-5fec32c8-1435-4bTa-8309-dbbee32d7a6f/pYay_cube/cuboid/base_cuboid 
2 куа xylin 0 2016-07-25 19:09 /kylin2/kylin петайата/ку1:2-21ес32с-145-467а-8309-4:ееЗ247а62/ртшу cube/cuboid/base cuboid/ 3002153 
ты-г--:-- 2 kylin kylin 272 2016-07-25 19:09 /yl1n2/Kylin петайаса/ку1:л-31ес3228-1825-467а-8308-8%еез247ав2/рүшу cube/cuboid/base cuboid/parr-r-00000 





图 10-14 


9. 流程 九 : 基于 内 存 构建 Cube 
这 一 步 再 次 构建 Cube， 如 图 10-15 所 示 。 
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#12 Step Name: Build Cube 
Duration: 0.00 mins 


aD 





10-15 
估计 应 该 有 部 分 朋友 会 非常 好 奇 ， 既 然 前 面 我 们 Cuboid 都 执行 完了 ， 怎 么 这 一 步 又 是 构建 
Cube。 
我 们 先 通过 钥匙 图 标 看 一 下 参数 内 容 : 





细心 的 朋友 应 该 发 现 : 


这 里 的 配置 文件 不 再 是 /var/lib/kylin/kylin/bin/./confykylin job confxml ， 而 是 
/var/lib/kylin/kylin/bin/../conf/kylin_job_conf_ inmem.xml。 其 实 这 一 块 是 最 新 版 本 加 入 的 新 的 功 
能 ， 称 为 Fast Cubing， 解 决 Layered Cubing 存在 的 一 些 问题 ， 比 如 聚合 都 放 到 Reduce 端 ， 这 样 
Map 端 处 理 的 数据 依赖 shuffling 通过 网 络 传输 给 Кейисе 端 ， 给 网 络 造成 很 大 的 压力 。 

这 里 我 们 稍微 介绍 一 下 Fast Cubing 的 原理 。 
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既然 数据 在 Кейисе 端 聚合 会 有 很 多 网 络 压 力 ， 那 么 可 不 可 以 把 聚合 放 到 Map 端 来 做 ， 然 后 
把 聚合 完 的 结果 通过 网 络 进行 传输 ， 在 Reduce 端 做 最 终 的 聚合 ， 这 样 的 话 ，Reduce 端 收 到 的 数 
据 就 会 变 少 ， 网 络 压力 就 会 变 小 。 目 前 比较 经 典 的 多 维 分 析 多 是 用 内 存 来 做 多 维 计算 ， 我 们 采用 
类 似 的 技术 在 Map 端 分 配 比较 大 的 内 存 ， 用 比较 多 的 CPU 做 In-mem cubing， 这 样 做 的 效果 类 
似 于 Layered 发 生 在 Map 端 。 这 些 过 程 完成 之 后 得 到 的 是 已 经 聚合 过 的 数据 ， 再 通过 网 络 分 发 
到 Кейисе 端 做 最 终 的 聚合 。 这 种 方式 的 缺点 是 算法 较为 复杂 ， 开 发 和 维护 比较 困难 ， 但 是 可 以 
减轻 网 络 压力 。 

我 们 查看 kylin_job_conf inmem.xml 文件 内 容 时 ， 发 现 配 置 加 大 了 mapper 端的 内 存 大 小 ， 
因为 部 分 聚合 放 到 Map 端 计算 需要 更 多 的 内 存 。 





如 果 你 查看 执行 日 志 时 ， 发 现 结果 为 skipped， 因 为 我 们 没有 采用 In-mem cubing 方式 。 


10. 流程 十 : 将 Cuboid 数据 转换 成 HFile 
将 Cuboid 数据 转换 成 HFile 如 图 10-16 所 示 。 


Ө  o206-07.25 03:1251 PsT 


#13 Step Name: Convert Cuboid Data to HFile 
Data Size: 20.09 KB 


Duration: 0.76 mins 


ans 





10-16 


单 击 钥 是 图标， 查询 参数 内 容 : 
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到 这 一 步 ， 很 多 内 容 就 慢 慢 清 晰 了 : 
ө ”输入 数据 来 源 ， 包 含 所 有 的 cuboid 文件 





ө {iiH hfile 文件 


© HBase 中 的 表 名 


这 一 步 是 需要 启动 MapReduce 去 处 理 cuboid 数据 文件 。 


11. 流程 十 一 : 将 HFile 导入 到 HBase З 
将 HFile 导入 到 HBase 表 中 ， 如 图 10-17 所 示 。 
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#14 Step Name: Load HFile to HBase Table 
Duration: 0.01 mins 


aB 





10-17 


单 击 钥 是 图 标 ， 查 看 参数 内 容 : 
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-cubename pvuv_cube 

这 个 流程 参数 比较 简单 ， 就 是 将 上 一 步 的 HFile 文件 导入 到 HBase 的 表 
KYLIN_C37CNMSYXA 中 。 

12. 流程 十 二 : 更 新 Cube 信息 

更 新 Cube 信息 ， 如 图 10-18 所 示 。 

13. 流程 十 三 : діа 

清理 中 间 表 ， 如 图 10-19 所 示 。 
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© © 2016-07-25 03:13:37 PST #16 Step Мате: Garbage Collection 


Duration: 0.19 mins 
#15 Step Name: Update Cube Info 
Duration: 0.00 mins 


B 


B End 2016-07-25 03:13:49 PST 





10-18 图 10-19 


将 之 前 生成 的 临时 中 间 表 等 都 删除 。 
到 此 为 止 ， 整 个 Build 过 程 结束 ， 希 望 朋友 们 都 已 经 理解 了 Kylin 构建 Build 的 核心 内 容 ， 
如 果 有 哪个 地 方 遗漏 或 忘记 的 话 ， 能 够 再 回顾 这 部 分 内 容 ， 彻 底 掌握 。 


10.2 м 


Kylin 中 Cube 的 Build 过 程 ， 其 实 是 将 所 有 的 维度 组 合 事先 计算 ， 存 储 于 HBase 中 ， 以 空 
间 换 时 间 ，HTable 对 应 的 RowKey， 就 是 各 种 维度 组 合 ， 指 标 存在 Column 中 ， 这 样 ， 将 不 同 维 
度 组 合 查 询 SQL， 和 转换 成 基于 RowKey 的 范围 扫描 ， 然 后 对 指标 进行 汇总 计算 。 
-个 Cube 中 ， 当 维度 数量 N 超过 一 定数 量 后 ， 空 间 以 及 计算 消耗 将 会 非常 大 ，Kylin 在 定 
X Cube 时 ， 可 以 将 维度 拆 分 成 多 个 聚合 组 (Aggregation Groups) ， 只 在 组 内 计算 Cube, WA 
组 内 查询 效率 高 ， 跨 组 查询 效率 较 差 ， 所 以 需要 根据 业务 场景 ， 将 常用 的 维度 组 合 定义 到 一 个 聚 
合 组 中 ， 提 高 查询 性 能 ， 这 也 是 Kylin 中 查询 性 能 优化 的 一 个 重要 方面 。 对 于 Cube 方面 的 优化 
还 有 很 多 ， 下 面 第 三 部 分 我 们 会 介绍 几 种 场景 下 的 Cube 优化 。 
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第 三 部 分 
Apache Kylin 
高 级 部 分 








本 章 将 和 朋友 们 一 起 研究 Kylin 中 设计 Cube 维度 时 的 几 个 优化 方面 。 


在 上 一 章 创建 Cube 的 介绍 中 ， 我 们 知道 Cube 的 优化 主要 是 通过 “高 级 设置 ” 那 一 步 实现 
的 ， 如 图 11-1 所 示 。 


O Q O Q QO © © 


Cube Info Dimensions Measures Refresh Setting Advanced Seting Configuration Overwrites Overview 


Aggregation Groups 

Visit aggregation group for more about aggregation group. 
0 Aggregation Groups 
1 


Includes DAY * OS * REGIONID ` CITYID ` SITEID ` 
Mandatory Dimensions Select Column 


Hierarchy Dimensions 


Joint Dimensions 





Rowkevs @ 


图 11-1 
这 些 内 容 的 优化 ， 我 们 都 已 经 在 创建 Cube 的 过 程 中 有 所 提 及 ， 这 里 再 全 面 地 补充 一 下 。 
1. Hierarchy Dimensions 的 优化 


理论 上 对 于 N 维度 ， 我 们 可 以 进行 2 的 N 次 方 的 维度 组 合 。 然 而 对 于 一 些 维度 的 组 合 来 
说 ， 有 时 是 没有 必要 的 。 例 如 ， 如 果 我 们 有 三 个 维度 : continent、country 和 city， 在 hierarchy 
中 ， 最 大 的 维度 排 在 最 前 面 。 当 使 用 下 钻 分 析 时 ， 我 们 仅仅 需要 下 面 的 三 个 维度 的 组 合 : 
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在 这 个 例子 中 ， 维 度 的 组 合 从 2 的 3 次 方 共 8 种 减少 到 了 3 种 ， 这 是 一 个 很 好 的 优化 ， 同 样 
适合 YEAR、QUARTER、MONTH 和 DATE 等 场景 。 
如 果 我 们 设置 hierarchy (Е НІ. H2 和 H3， 那 么 典型 的 场景 应 该 是 : 


A) 场景 1: {E Lookup Table (维度 表 ) 上 Hierarchy 


Fact Table (事实 表 ) (joins) Lookup Table (维度 表 ) 


Q) 场景 2: 在 Fact Table (事实 表 ) 上 Hierarchy 
Fact table (事实 表 ) column1,column2,,,H1,H2,H3,,, 


对 于 场景 1， 这 是 一 个 特殊 的 案例 ，PK (Primary Key) 在 Lookup 的 表 上 ， 意 外 地 成 为 了 
hierarchy 的 一 部 分 。 如 果 使 用 这 种 方式 的 话 ， 那 么 HI1、H2 和 НЗ 都 要 参与 Cube 维度 组 合 ， 
生成 Cuboid， 但 是 针对 这 种 场景 如 果 使 用 “Derived Columns” 优 化 方案 ， 则 效果 更 好 ， 有 具体 参 
考 下 面 说 明 。 


2. Derived Columns 优化 


Derived column 被 用 在 的 地 方 为 : 当 一 个 或 多 个 维度 〈 必 须 是 Lookup 表 的 维度 ， 这 些 字段 
被 称 为 “Derived”) ， 能 够 从 另 一 个 字段 中 推断 出 来 〈 通 常 为 PK， 主键 ) 。 

例如 ， 假 如 我 们 有 一 个 Lookup Table， 我 们 使 用 join 关联 Fact Table， 并 且 使 用 “where 
DimA=DimX”。 在 Kylin 中 需要 注意 ， 如 果 你 选择 FK 为 一 个 维度 ， 那 么 相关 的 PK 将 自动 可 查 
询 ， 没 有 任何 额外 的 开销 。 这 重要 的 原因 是 FK 和 PK 总 是 相同 的 ，Kylin 能 够 首先 在 FK 上 使 用 
filters/groupby， 并 且 透 明 地 蔡 换 为 PK。 这 个 表明 如 果 我 们 想 用 DimA(FK)、DimX(PK)、DimB 
和 DimC 在 我 们 的 Cube 中 ， 我 们 能 够 安全 地 仅仅 选择 DimA、DimB 和 DimC 。 





这 里 的 维度 DimA 〈 维 度 代 表 FK/PK) 有 一 个 特殊 的 映射 到 DimB。 





在 这 个 案例 中 ， 给 定 一 个 DimA 的 值 ，DimB 的 值 就 确定 了 ， 因 此 我 们 说 DimB 能 够 从 


DimA 获得 (Derived)。 当 我 们 build 一 个 cube 包含 DimA 和 DimB ， 我 们 能 够 简单 地 包含 
DimA， 并 且 标记 DimB 作为 Derived。Derived column(DimB) 不 会 参与 cuboids 的 生成 ， 如 下 所 
示 : 
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对 于 上 面 的 维度 A、B 和 C， 那 么 原始 维度 组 合 方式 如 下 : 


那么 使 用 Derived 优化 后 的 维度 组 合 方式 为 : 


在 运行 查询 时 ， 例 如 “select count(*) from fact table inner join lookupl group by 
lookup1.dimB” 的 案例 中 ， 它 期 待 从 包含 DimB 的 cuboid 中 去 获取 查询 结果 。 然 而 ， 因 为 DimB 
使 用 了 Derived 优化 ， 在 cuboids 没有 结果 。 在 这 种 情况 下 ， 程 序 自动 修改 执行 计划 ， 首 先 按照 
DimA 进行 group by 操作 ， 我 们 将 获取 中 间 的 结果 ， 比 如 : 





然后 ，Kylin 将 使 用 DimB WER Dima 的 值 〈 因 为 他 们 的 值 都 在 Lookup 表 中 ，Kylin 能 
够 加 载 整 个 Lookup 表 到 内 存 中 并 且 build 一 个 他 们 的 映射 关系 ) ， 因 而 中 间 的 结果 为 : 





紧 接着 ， 运 行 SQL 的 引擎 (calcite) 将 进一步 地 聚合 中 间 结 果 为 最 终结 果 : 





这 个 步骤 发 生 在 SQL 查询 运行 期 间 ， 也 就 是 “at the cost of extra runtime aggregation” o 


3. Mandatory Columns 优化 


这 种 维度 设计 比较 简单 ， 如 果 指 定 某 个 dimension 字段 为 mandatory， 那 么 意味 着 每 次 查询 
的 group by 中 都 会 携带 此 dimension; 如 果 不 指 定 此 dimension， 则 查询 报错 。 另 外 ， 如 果 将 某 一 
个 dimension 字段 设置 为 mandatory， 可 以 将 cuboid 的 个 数 大 大 减少 。 

比如 A、B 和 C 三 个 维度 ， 原 始 维度 组 合 为 : 
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那么 如 果 将 A 设 为 mandatory， 那 么 维度 组 合 为 : 
А, AB. АС, АВС 


如 果 在 某 张 有 主键 的 维度 表 上 有 多 个 维度 ， 那 么 可 以 将 其 维度 设置 为 Derived Dimension， 
在 Kylin 内 部 会 将 其 统一 用 维度 表 的 主键 来 替换 ， 以 此 来 达到 降低 维度 组 合 的 数目 ， 当 然 在 一 定 
程度 上 Derived Dimension 会 降低 查询 效率 。 在 查询 时 ，Kylin 使 用 维度 表 主 键 进行 聚合 后 ， 再 
通过 主键 和 真正 维度 列 的 映射 关系 做 一 次 转换 ， 在 Kylin 内 部 再 对 结果 集 做 一 次 聚合 后 返回 给 用 
户 。 


4. 维度 的 顺序 

维度 的 顺序 很 重要 ，ID 决定 了 这 个 维度 在 数组 中 执行 查找 时 该 维度 对 应 的 第 一 个 维度 ， 比 
如 在 例子 中 time 的 ID 就 是 1，location 对 应 的 ID 就 是 2，product 对 应 的 ID 为 3， 这 个 顺序 是 非 
常 重要 的 ， 一 般 情况 我 们 会 将 mandatory 维度 放置 在 rowkey 的 最 前 面 ， 而 其 他 的 维度 需要 将 经 
常 出 现在 过 滤 条 件 中 的 维度 放置 在 靠 前 的 位 置 。 

假设 在 上 例 的 三 维 数组 中 ， 我 们 经 常 使 用 time 进行 过 滤 ， 但 是 我 把 time 的 ID 设置 为 3 (其 
中 location 的 ID=1，product 的 ID=2) ， 这 时 候 如 果 从 数组 中 查找 time 大 于 '2016-07-01' 并 且 小 于 
'2016-07-31'"， 那 么 查询 就 需要 从 最 小 的 key=<min(location)、min(producb、'2016-07-01> 扫 描 到 
最 大 的 key=<max(location)、max(product)、'2016-07-31>， 但 是 如 果 把 time 的 ID 设置 为 1， 扫 描 
的 区 间 就 会 变 成 key=<'2016-07-01'、min(location) 、 тіп(ргойис()> 到 key=< '2016-07-31', 
max(location)、max(product)>。 

Kylin 在 实现 时 需要 将 Cube 的 数组 存储 在 HBase 中 ， 然 后 按照 HBase 中 的 rowkey 进行 扫 
Rú. 根据 上 面 的 描述 ， 我 们 这 里 举 个 例子 来 说 明 为 什么 维度 组 合 的 rowkey 顺序 重要 。 

假设 min(location)='BeiJing'、max(location)= INanjing'、min(producb='A'、max(producb='Z， 
考虑 在 第 一 种 情况 (location 的 ID=1, product 的 ID=2, time 的 10=3) F, HBase 需要 扫描 的 
rowkey 范围 是 : 





[BeiJing-A-2016-07-01, Nanjing-Z-2016-07-31] 

而 第 二 种 情况 (time 的 ID=1, location 的 ID=2, product 的 10=3) 下 HBase 需要 扫描 的 
rowkey 范围 是 : 

[2016-07-01-BeiJing-A, 2016-07-31-Nanjing-Z] 

如 果 对 time 进行 过 滤 ， 可 以 看 出 第 二 种 情况 可 以 减少 扫描 的 rowkey， 查 询 的 性 能 也 就 更 好 
了 。 但 是 在 kylin 中 并 不 会 存储 原始 的 成 员 值 〈 例 如 Nanjing, 2016-07-01 这 样 的 值 ) ， 而 是 需要 
对 它们 进行 编码 。 

5. Aggregation Group 优化 


这 是 一 个 将 维度 进行 分 组 ， 以 求 达到 降低 维度 组 合 数目 的 手段 。 不 同 分 组 的 维度 之 间 组 成 的 
Cuboid 数量 会 大 大 降低 ， 维 度 组 合 从 2 的 tmin) 次 宕 至 多 能 降低 到 2 的 k KREDE 2 的 m 
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KERLE 2 的 nm ААНОАТ, Group 的 优化 措施 与 查询 SQL 紧密 依赖 ， 可 以 说 是 为 了 查询 的 
定制 优化 。 如 果 查 询 的 维度 是 跨 Group 的 ， 那 么 Kylin 需要 以 较 大 的 代价 从 N-Cuboid 中 聚合 得 
到 所 需要 的 查询 结果 ， 这 需要 Cube 的 设计 人 员 在 建 模 时 仔细 地 其 酮 。 


6. 数据 压缩 优化 


Apache Kylin 针对 维度 字典 以 及 维度 表 快照 采用 了 特殊 的 压缩 算法 ， 对 于 HBase 中 的 聚合 计 
算数 据 利 用 了 Hadoop 的 LZO 或 者 是 Snappy 等 压缩 算法 ， 从 而 保证 存储 在 HBase 以 及 内 存 中 的 
数据 尽 可 能 地 小 。 其 中 维度 字典 以 及 维度 表 快 照 的 压缩 考虑 到 Data Cube 中 会 出 现 非常 多 的 重复 
的 维度 成 员 值 ， 最 直接 的 处 理 方式 就 是 利用 数据 字典 的 方式 将 维度 值 映射 成 ID, Kylin 中 采用 
了 Trie 树 的 方式 对 维度 值 进行 编码 。 


7. Count Distinct 聚合 查询 优化 


Apache Kylin 采用 了 HypeLogLog 的 方式 来 计算 Count Distinct。 好 处 是 速度 快 ， 缺 点 是 结 
果 是 一 个 近似 值 ， 会 有 一 定 的 误差 ， 我 们 可 以 指定 误差 率 ， 错 误 率 越 低 ， 占 用 的 存储 越 大 ， 
Build 耗 时 越 长 。 在 非 计 费 等 通常 的 场景 下 Count Distinct 的 统计 误差 应 用 普遍 可 以 接受 。 

从 1.5 版 本 中 加 入 了 User Defined Aggregation Types， 即 用 户 自 定义 聚合 类 型 ， 后 来 Kylin 基 
于 Bit-Map 算法 实现 精确 Count Distinct， 但 也 仅仅 支持 整数 家 族 (比如 int, bigint) 的 字段 类 
型 ， 字 符 等 类 型 暂时 支持 ， 所 以 如 果 需 要 对 字符 类 型 进行 精确 Count Distinct 计算 ， 可 能 需要 先 
在 Hive 表 中 进行 预 处 理 。 


8. 其 他 方面 的 优化 

(1) 对 于 大 的 事实 表 可 以 采用 分 区 来 增 量 构建 。 为 了 不 影响 查询 性 能 ， 可 以 设置 定期 自动 
做 合并 Merge 操作 ， 合 并 的 周期 可 以 根据 实际 情况 确定 ， 比 如 10 天 进行 一 次 合并 。 

(2) 如 果 每 次 查询 都 带 有 某 个 维度 ， 那 么 建议 在 高 级 设置 步骤 中 将 此 维度 设置 为 
Mandatory， 好 处 是 最 终 Build 出 来 Cube 的 大 小 会 减少 一 半 。 

G) 对 于 维 表 比较 大 的 情况 ， 或 者 查询 select 部 分 存在 复杂 的 逻辑 判断 ， 或 者 存在 Kylin 
不 支持 的 函数 或 语句 时 ， 可 以 先 在 Hive 中 对 事实 表 和 维 表 的 进行 关联 等 逻辑 处 理 ， 并 创建 Hive 
视图 ， 之 后 根据 视图 创建 Cube 模型 。 

(4) Cube 的 维度 如 果 超过 10 个 ， 建 议 将 常用 的 聚合 字段 分 组 ， 我 们 对 于 最 大 的 16 个 维度 
分 了 三 个 组 ， 每 组 大 概 在 5 个 维度 左右 。 当 然 ， 你 也 可 以 通过 修改 Kylin 的 配置 参数 ， 限 制 
Cube 的 维度 个 数 或 者 维度 组 合 总 数 。 

(5) Cube 定义 中 RowKey 顺序 : Mandatory 维度 、Where 过 滤 条 件 中 出 现 频率 较 多 的 维 
度 、 高 基数 维度 、 低 基数 维度 。 

(6) 在 搭建 Kylin 的 大 数据 分 析 平 台 时 ， 可 以 通过 Nginx 在 前 端 做 负载 均衡 ， 后 端 启动 多 
个 Query Server 接收 查询 请 求 处 理 ， 提 高 并 发 度 。 
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元 数据 是 Kylin 中 最 重要 的 数据 之 一 ， 备 份 元 数据 是 运 维 工作 中 一 个 至 关 重 要 的 环节 。 只 有 
这 样 ， 在 由 于 误 操作 导致 整个 Kylin 服务 或 某 个 Cube 异常 时 ， 才 能 将 Kylin 快速 从 备份 中 恢复 
出 来 。 

一 般 的 ， 在 每 次 进行 故障 恢复 或 系统 升级 之 前 ， 对 元 数据 进行 备份 是 一 个 良好 的 习惯 ， 这 可 
以 保证 Kylin 服务 在 系统 更 新 失败 后 依然 有 回 滚 的 可 能 ， 在 最 坏 情况 下 依然 保持 系统 的 健壮 性 。 

此 外 ， 元 数据 备份 也 是 故障 查找 的 一 个 工具 ， 当 系统 出 现 故 障 导致 前 端 频繁 报错 ， 通 过 该 工 
具 下 载 元 数据 并 查看 文件 ， 往 往 能 对 确定 元 数据 是 否 存 在 问题 提供 巨大 帮助 。 

本 章 我 们 介绍 如 何 备份 Kylin 的 元 数据 ， 方 便 数 据 恢复 和 迁移 。 


12.1 куњ 的 元 数据 


1. Kylin 元 数据 介绍 

Kylin 组 织 所 有 的 元 数据 (cube、cube_desc、model_desc、project、table 等 ) 作为 一 个 层次 
的 文件 系统 。 然 而 Kylin 默认 使 用 HBase 来 进行 存储 ， 而 不 是 普通 的 文件 系统 。 

我 们 可 以 从 Kylin 的 配置 文件 conf/kylin.properties 中 查看 到 : 


kylin.metadata.url 选项 的 值 表 示 Kylin 的 元 数据 被 保存 在 HBase 的 kylin_metadata 表 中 。 


2. Kylin 的 元 数据 的 相关 操作 
Kylin 自身 提供 了 元 数据 的 备份 程序 ， 我 们 可 以 执行 程序 看 一 下 帮助 信息 : 


显示 如 下 内 容 : 
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根据 输出 内 容 ， 可 以 看 出 对 Kylin 的 元 数据 提供 了 重 置 、 备 份 、 恢 复 等 操作 。 


12.2 备份 元 数据 


如 果 备 份 元 数据 ， 我 们 执行 metastore.sh 时 需要 跟 上 backup 参数 ， 如 下 : 





显示 如 下 内 容 : 





这 将 备份 元 数据 到 本 地 目录 $KYLIN_HOME/metadata_ backps 下 面 ， 目 录 的 命名 格式 为 : 


比如 我 的 Kylin 的 家 目录 为 /var/lib/kylin/kylin， 那 么 刚才 备份 元 数据 的 目录 为 : 


查看 一 下 备份 目录 的 内 容 : 
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目录 结构 的 内 容 如 表 12-1 所 示 。 


表 12-1 
备份 目录 的 内 容 














包含 了 项 目的 基本 信息 ， 项 目 所 包含 其 他 元 数据 类 型 的 声明 
包含 了 描述 数据 模型 基本 信息 、 结 构 的 定义 
包含 了 描述 Cube 模型 基本 信息 、 结 构 的 定义 
cube 包含 了 Cube 实例 的 基本 信息 ， 以 及 下 属 Cube Segment 的 信息 
cube statistics 包含 了 Cube 实例 的 统计 信息 
table 包含 了 表 的 基本 信息 ， 如 Hive 信息 
table_ exd 包含 了 表 的 扩展 信息 ， 如 维度 
table_snapshot 包含 了 Lookup 表 的 镜像 
dict 包含 了 使 用 字典 列 的 字典 
execute 包含 了 Cube 构建 任务 的 步骤 信息 
execute_output 包含 了 Cube 构建 任务 的 步骤 输出 





下 面 我 们 挑选 几 个 目录 进行 说 明 一 下 : 
1.table 目录 





任意 选择 一 个 查看 内 容 : 
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可 以 看 到 维度 表 CITY_TBL 定义 的 字段 信息 ， 表 类 型 和 所 属 数据 库 ， 每 个 维度 都 使 用 ID Ж 
标记 。 
2.table_exd 目录 


任意 选择 一 个 查看 : 
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可 以 看 到 这 里 面 是 表 的 数据 文件 目录 、 大 小 、 数 据 文件 格式 等 等 内 容 。 
3. cube 目录 





这 个 目录 存放 的 是 每 个 Cube 的 详细 信息 ， 内 容 比 较 多 ， 我 就 不 罗列 出 来 了 ， 朋 友 们 可 以 打 
开 文 件 看 一 下 ， 包 括 Cube 名 称 、Cube 状态 、 每 个 segment 的 具体 描述 等 内 容 。 


12.3 恢复 元 数据 


假如 你 的 Kylin 元 数据 挂 掉 了 ， 那 么 我 们 就 可 以 使 用 之 前 备份 的 元 数据 进行 恢复 。 
首先 reset 当前 Kylin 的 元 数据 存储 ， 这 将 清理 掉 所 有 存储 在 HBase 中 的 Kylin 元 数据 ， 确 
保 在 此 之 前 做 过 备份 。 


接着 ， 上 传 备份 的 元 数据 进行 恢复 。 


等 待 恢复 操作 成 功 ， 用 户 可 以 在 Web UI 的 “System” 页 面 上 单 击 “Reload Metadata” 按 钮 
对 元 数据 缓存 进行 刷新 ， 即 可 看 到 最 新 的 元 数据 。 
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< 使 用 Hive 视 图 > 


本 章 我 们 将 介绍 为 什么 需要 在 Kylin 创建 Cube 的 过 程 中 使 用 Hive 视图 ; 如 果 使 用 Hive 视 
图 ， 能 够 带 来 什么 好 处 ， 解 决 什么 样 的 问题 ， 以 及 需要 学 会 如 何 使 用 视图 ， 使 用 视图 有 什么 限制 


м 
等 。 


使 用 Hive 视图 


1. 为 什么 需要 使 用 视图 

Kylin 创建 Cube 的 过 程 中 使 用 Hive 的 表 数 据 作为 输入 源 。 但 是 有 些 情况 下 ，Hive 中 的 表 定 
义 和 数 据 并 不 能 满足 分 析 的 需求 ， 例 如 有 些 列 的 值 需要 进行 处 理 ， 有 些 列 的 类 型 不 满足 需求 ， 甚 
至 有 时 候 我 们 在 创建 Hive 表 时 为 了 方便 快捷 ， 会 将 Hive 表 的 所 有 列 的 字段 类 型 都 定义 为 
string， 因 此 很 多 情况 下 在 使 用 Kylin 之 前 需要 对 Hive 上 的 数据 格式 等 问题 进行 适当 的 处 理 。 

但 是 如 果 在 Hive 中 通过 修改 原 表 来 解决 上 面 的 问题 ， 比 如 使 用 alter table 的 方式 修改 原始 表 
的 Schema 信息 未 免 会 对 其 他 依赖 Hive 的 组 件 有 所 影响 〈 例 如 可 能 导致 通过 Sqoop 等 方式 导入 
数据 失败 ) ， 而 且 也 有 可 能 导致 之 前 的 作业 无 法 正常 运行 。 于 是 我 们 需要 考虑 在 不 改变 原 表 的 情 
况 下 解决 这 个 问题 ， 因 此 我 们 想到 的 方案 是 使 用 Hive 的 视图 。 

当然 ， 除 了 Hive 数据 源 本 身 Schema 等 限制 之 外 ，Kylin 对 于 Hive 的 使 用 还 有 一 定 的 限 
制 ， 这 也 间接 地 导致 我 们 需要 使 用 视图 : 


ө ”同一 个 项 目下 使 用 相同 表 ( 可 能 根据 不 同 的 filter 条 件 过 滤 ， 或 者 设置 了 不 同 的 维度 
等 ) 创建 了 不 同 的 Cube， 会 导致 查询 的 时 候 定位 到 错误 的 Cube 等 异常 问题 。 

e 只 支持 星 型 模型 。 我 们 的 来 源 表 可 能 包含 多 张 事实 表 和 多 张 维 表 ， 那 么 就 需要 将 多 张 
事实 表 整 合成 一 张大 的 宽 表 。 


2. 如 何 使 用 视图 


Hive 目前 只 支持 逻辑 视图 ， 而 我 们 需要 的 仅仅 是 对 Hive 原始 的 Schema 信息 的 修改 ， 而 并 
非 希望 通过 物化 视图 优化 查询 速度 ， 因 此 目前 Hive 对 视图 的 支持 可 以 满足 Kylin 的 需要 。 
下 面 根据 不 同 的 场景 分 别 介绍 一 下 如 何 创 建 视图 作为 Kylin 的 输入 源 : 
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(1) 分 表 的 情况 

两 个 表 具 有 相同 的 结构 ， 但 是 保存 不 同 的 数据 ， 例 如 一 个 表 保 存 Android 端的 访问 数据 ， 一 
个 表 保 存 访问 IOS 端的 数据 ， 那 么 就 可 以 通过 Hive 的 view 解决 。 

例如 有 一 个 用 户 有 两 张 表 product android 和 product ios， 这 两 个 表 具 有 相同 的 表 结 构 ， 用 
户 需 要 将 平台 (Android 或 者 IOS) 作为 一 个 维度 进行 分 析 ， 因 此 我 们 为 其 创建 了 这 样 的 view: 





这 样 可 以 将 palearn_cube 作为 事实 表 来 创建 Cube， 而 platform 作为 其 中 的 一 个 维度 。 


(2) 自 定义 函数 
Kylin 中 使 用 Apache Calcite 作为 SQL 的 查询 引擎 ， 但 是 Kylin 支持 的 自 定义 函数 代价 比较 
大 ， 因 此 如 果 需 要 使 用 自 定义 函数 ， 那 么 可 以 在 Hive 中 创建 视图 来 对 字段 进行 处 理 。 


(3) 雪花 模型 的 支持 
目前 Kylin 仅 支 持 星 型 模型 ， 而 通过 在 Hive 中 创建 视图 ， 我 们 可 以 很 容易 地 把 雪花 模型 转 
换 为 星 型 模型 ， 甚 至 生成 一 个 大 的 宽 表 。 


(4) 频繁 修改 表 字段 名 
Kylin 直接 使 用 Hive 中 的 字段 名 作为 元 数据 ， 如 果 频 繁 修改 事实 表 或 者 维度 表 的 字段 名 会 导 
致 元 数据 错误 (https:/issues.apache.org/jira/browse/KYLIN-1173) ， 因 此 通过 视图 增加 一 层 映射 
是 比较 好 的 方法 ， 这 样 可 以 使 得 原生 的 Hive 表 的 字段 名 对 Kylin 的 Cube 透明 ， 此 后 再 需要 修改 
字段 名 的 时 候 不 会 对 Cube 有 所 影响 ， 只 需要 修改 view 的 定义 。 


(5) UHC 维度 

当 一 个 维度 的 cardinality 比较 大 时 可 能 会 出 现 的 问题 比较 多 ， 首 先 可 能 在 Extract Fact Table 
Distinct Columns 这 一 步 时 导致 reducer 出 现 OOM; 其 次 在 创建 维度 字典 树 时 可 能 会 导致 维度 字 
典 树 太 大 占据 大 量 的 内 存 ， 另 外 会 导致 Cube 的 构建 速度 缓慢 ， 占 用 大 量 的 存储 空间 。 此 时 就 需 
要 思考 一 下 这 样 的 ОНС 维度 是 否 是 必需 的 ， 是 否 可 以 提取 出 部 分 信息 减 小 维度 ， 例 如 
timestamp 维度 ， 是 否 可 以 精确 到 5 分 钟 ， 详 细 地 址 的 维度 ， 是 否 可 以 精确 到 县 、 镇 ， 这 样 可 以 
大 大 减 小 维度 数 ， 而 且 更 详细 的 信息 并 没有 太 大 的 统计 意义 。 例 如 URL 类 型 的 维度 ， 是 否 可 以 
把 参数 去 掉 只 保留 访问 路 径 。 


(6) Hive 中 表 字段 类 型 变化 
比如 我 们 之 前 有 一 个 需求 计算 一 个 指标 的 精确 的 Count Distinct 值 ， 虽 然 这 个 字段 存放 的 内 
容 为 整数 值 ， 但 是 Hive 表 字 段 类 型 为 string，Kylin 中 精确 的 Count Distinct 聚合 函数 不 支持 字符 
类 型 ， 因 此 我 们 在 Hive 中 创建 视图 解决 这 个 问题 ， 即 将 string 类 型 转换 为 整数 类 型 。 
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(7) 复合 数据 类 型 处 理 
由 于 Hive 中 可 以 定义 复杂 的 数据 类 型 ， 例 如 map、struct， 而 Kylin 中 无 法 处 理 这 种 类 型 ， 
所 以 需要 使 用 视图 将 复杂 类 型 字段 进行 拆 分 出 维度 和 度量 。 
在 我 们 目前 的 实践 中 ， 有 一 部 分 Cube 依赖 的 事实 表 都 是 通过 view 创建 的 ， 这 样 增加 了 一 
层 映射 ， 可 以 减 小 cube 对 原始 表 的 依赖 ， 提 高 灵活 性 。 


3. 使 用 视图 限制 

由 于 Hive 的 限制 ，Hive 不 能 对 view 使 用 HCatalog 获取 数据 (https://issues.apache.org/jira/ 
browse/HIVE-10851) ， 因 此 当 你 在 Kylin 中 load 一 个 view 的 时 候 ，Kylin 计算 表 的 cardinality 
的 job 无 法 获取 到 cardinality 的 值 ， 这 时 就 要 求 用 户 知道 每 一 列 的 cardinality 大 致 的 情况 ， 如 果 
实在 不 确定 可 以 到 Hive 里 面 查询 一 下 。 


13.2 使 用 视图 实战 


这 里 我 给 朋友 们 简单 演示 一 下 视图 的 使 用 ， 其 实 视图 在 我 们 项 目 中 还 是 会 经 常 遇 到 的 。 
不 知道 朋友 们 还 记 不 记得 之 前 我 们 创建 过 三 张 表 请 查看 “Apache Kylin 进 阶 部 分 之 多 维 分 
析 的 Cube 创建 实战 ”章节 ) : 


© FÅ: kylin_flat db.web_access_fact tbl 
© “j: куйп flat db.region_tbl 
© “j: kylin flat_db.city_tbl 


如 果 您 根据 本 书 实战 的 话 ， 当 前 Hive 的 kylin_flat db 数据 库 下 面 应 该 有 这 三 张 表 。 我 们 现 
在 将 在 Hive 中 对 这 三 张 表 创 建 视图 ， 根 据 视图 来 构建 Cube， 大 概 步骤 如 下 : 


1. 步骤 一 : 创建 视图 
在 Hive Cli 中 执行 如 下 SQL: 
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on a.cityid = c.cityid; 


这 里 对 cookieid 字段 〈 字 符 串 类 型 ) 使 用 hash 函数 处 理 ， 结 果 处 理 为 整数 类 型 ， 我 们 这 样 


做 的 目的 是 为 了 使 用 Count Distinct〈 目 前 只 支持 整数 类 型 ) 精确 去 重 。 








EB. hash 算法 的 特点 是 可 重复 和 不 可 逆 的 ， 即 针对 不 同 的 字符 串 进行 hash 处 理 ， 结 果 可 能 会 重 


复 ， 所 以 上 面 的 方法 存在 一 定 的 问题 。 在 实际 项 目 中 我 们 使 用 Hive 自 定义 函数 对 需要 使 用 
Count Distinct 精确 的 字段 (整数 类 型 就 不 必 处 理 了 ) 处 理 成 整数 类 型 并 保证 不 同 的 字符 串 处 


理 的 整数 值 不 同 。 











2. 步骤 二 : 创建 项 目 

创建 “view_project” 工 程 ， 当 然 也 可 以 使 用 任何 已 经 存在 的 工程 。 
3. 步骤 三 : 导入 数据 源 

导入 kylin_flat_db 数据 库 下 刚才 创建 的 视图 v_pvuv。 

4. 步骤 四 : 创建 Model 

这 里 我 们 作为 演示 ， 只 选 了 一 张 视图 作为 事实 表 ， 没 有 维 表 。 其 中 : 
维度 字段 : v_date、regionname、cityname 

度量 字段 : cookieid、pv 

分 区 字段 : v_date 

5. 步骤 五 : 创建 Cube 


因为 朋友 们 对 于 如 何 创建 Cube 都 很 熟悉 了 ， 这 里 我 们 简要 罗列 几 步 来 说 明 。 
创建 Cube 所 选 的 维度 如 图 13-1 所 示 。 














Cube Designer 
Q@— 3 4 5 6 7 

Cube Info Dimensions ме 
ae TD El Auto Generator н а 
ID Мате Table Мате туре Actions 
1 KYLIN_FLAT_DB.V_PVUVV_DATE KYLIN FLAT ову Pvuv [ZZ Column v DATE 
2 KYLIN_FLAT_DB.V_PVUVREGIONNAME КҮМ FLAT_DB V_PVUV ED Column REGIONNANE D> 
3 KYLIN_FLAT_DB V_PVUVCITYNAME KYLIN ғ1АТ ову РУОУ ED Column СІТҮМАМЕ D 
Ф Prev Next + 

13-1 


创建 Cube 所 选 的 度量 如 图 13-2 所 示 。 
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Cube Designer 


© © 0O- QQ O © 


Cube Into Dimensions Measures Retresn Seting Advanced Setting Configuration Overwrites 





Expression Parameters Retum Type 


COUNT bigint 


|— Value: 1, Type:constant 


SUM bigint 
|— Vatue РУ, Type column 





COUNT_DISTINCT bitmap 
|— маме COOKIEID. Type column 





图 13-2 


其 中 我 们 使 用 精确 的 COUNT_DISTINCT 函数 来 计算 cookieid 字段 中 的 值 ， 所 以 返回 类 型 为 
bitmaps 


6. 步骤 六 : 构建 Cube 

设置 构建 的 结束 时 间 ， 然 后 构建 Cube。 

7. 步骤 七 : W Cube 

Cube 构建 完成 后 ， 就 可 以 执行 查询 了 。 界 面 如 图 13-3 所 示 ， 查 询 SQL 如 下 : 


Insight Model Monitor System 





日 四 


New Quei Saved Queries Query Histol 
Tables Сагы 


1 select У бабе, 
гевіоппате, 
сібупапе, 
count(distinct соокіеіа) 
from V_PVUV 
group by v_date, 
regionname, 


сїтупате; 


Ë KYLIN_FLAT_DB 


四 wowmhwn 





13-3 
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结果 如 图 134 所 示 。 


Results 
ТЕЕ 1 Ststus: [аш 
Quay Эіп У Start Time: 2015-08-07 02-1121 PST Duraton 0.27 [ЕЙ ss 
Status: Еу Project view_project Cubes: pvuv_view_cube 

Results (3) Vsualzaton @Epon / 
V_DATE ~ REGIONNAME” CITYNAME ~ EXPRS3 ~ 

2016-07-20 s Еа] 

2016-07-01 浙江 杭州 Ц 

2016-07-01 +s ип 

2016-07-19 浙江 ал 1 

2016-07-03 PM ак 1 








图 13-4 


在 我 们 使 用 Kylin 的 过 程 中 ， 对 于 上 面 提 到 的 问题 很 多 都 可 以 通过 Hive 的 视图 进行 解决 。 
如 果 朋友 们 在 Kylin 使 用 过 程 中 遇 到 一 些 Kylin 自身 无 法 解决 的 问题 时 ， 可 以 尝试 一 下 Hive 的 视 
图 ， 也 许 会 给 您 带 来 惊喜 。 
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在 Kylin 运行 一 段 时间 之 后 ， 有 很 多 数据 因为 不 再 使 用 而 变 成 了 垃圾 数据 ， 这 些 数据 占据 着 
大 量 HDFS、HBase 等 资源 ， 当 积累 到 一 定 规模 时 会 对 集群 性 能 产生 影响 。 
这 些 垃圾 数据 主要 包括 : 


© Purge 之 后 原 Cube 的 数据 . 

© 。 Cube 合并 之 后 原 Cube Segment 的 数据 。 

© ”任务 失败 中 未 被 正常 清理 的 临时 数据 文件 。 
© ”已 经 过 时 的 Cube 构建 的 日 志和 任务 历史 。 


为 了 对 这 些 垃圾 数据 进行 清理 ，Kylin 提供 了 两 个 常用 的 工具 。 请 特别 注意 ， 数 据 一 经 删除 
将 彻底 无 法 恢复 ! 建议 使 用 前 一 定 要 进行 元 数据 备份 ， 并 对 目标 资源 删除 之 前 请 进行 谨慎 核对 。 


14.1 清理 元 数据 


清理 元 数据 指 从 Kylin 元 数据 中 清理 掉 无 用 的 资源 。 随 着 时 间 的 推移 ， 有 些 资源 ， 比 如 字 
典 ， 表 的 快照 等 变 得 无 用 了 因为 cube 的 segment 被 删除 或 合并 ) ， 但 是 他 们 仍然 占用 空间 。 
可 以 执行 如 下 命令 查找 和 清理 无 用 的 元 数据 : 


(1) 首先 ， 执 行 检查 ， 这 是 安全 的 操作 ， 不 会 修改 任何 内 容 : 


这 样 会 只 列 出 所 有 可 以 被 清理 的 资源 resources) 供 用 户 核对 ， 而 并 不 实际 进行 删除 操作 。 
当 用 户 确认 无 误 后 ， 青 添加 delete 参数 并 执行 命令 ， 才 会 进行 实际 的 删除 操作 。 


(2) 接着 ， 在 上 面 的 命令 中 ， 添 加 “--delete true ”参数 ， 这 样 就 会 清理 掉 哪 些 无 用 的 资源 。 
切记 ， 在 这 个 命令 操作 之 前 ， 一 定 要 备份 Kylin 元 数据 : 


默认 情况 下 ， 该 工具 会 清理 的 资源 列表 如 下 : 
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© 2 天 前 创建 的 已 无 效 的 Lookup 表 镜 像 、 字 典 、Cube 统计 信息 。 
ө 30 天 前 结束 的 Cube 构建 任务 的 步骤 信息 、 步 骤 输 出 。 


这 里 给 朋友 们 普及 一 下 如 何 去 查 询 上 面 命令 底层 到 底 是 如 何 执行 的 ， 以 及 一 些 默认 参数 的 设 
置 ， 大 家 借 此 可 以 去 查询 其 他 的 一 些 工具 ， 比 如 Kylin 的 启动 ， 备 份 等 执行 过 程 。 
根据 SKYLIN_HOME/bin/metastore.sh 的 脚本 内 容 ， 找 到 如 下 内 容 : 


如 果 metastore.sh 脚本 的 第 一 个 参数 为 clean 时 ， 执 行 Java 程序 为 : 


源码 MetadataCleanupJobjava 的 路 径 为 : 





通过 查看 源码 可 以 看 出 这 个 类 是 一 个 有 main 方法 的 类 ， 同 样 看 到 里 面 有 设置 清理 元 数据 的 
原则 的 配置 项 : 





这 两 个 配置 项 即 为 上 面 列 出 的 两 条 清理 资源 列表 的 时 间 依据 。 


1 4 .2 清理 存储 器 数据 


Kylin 在 构建 Cube 过 程 中 会 在 HDFS 上 生成 中 间 数 据 。 另 外 ， 当 我 们 对 Cube 执行 
purge/drop/merge 时 ， 一 些 HBase 的 表 可 能 会 保留 在 HBase 中 ， 而 这 些 表 不 再 被 查询 ， 尽 管 
Kylin 会 做 一 些 自动 的 垃圾 回收 ， 但 是 它 可 能 不 会 覆盖 所 有 方面 ， 所 以 需要 我 们 能 够 每 隔 一 段 时 
间 做 一 些 离线 存储 的 清理 工作 。 具 体 步 又 如 下 : 


检查 哪些 资源 需要 被 清理 ， 这 个 操作 不 会 删除 任何 内 容 : 
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org.apache.kylin.storage.hbase.util.StorageCleanupJob --delete false 
检查 结果 如 图 14-1 所 示 。 


1016-27-31 17:52:39,834 INTO [main StorageClearupJob:203]: Remeve /yylin2/Yylir тесайата/гу11п-9524е093-3244-44е1-э794-ЬТЕ4ЬЕ?Ё#286 from deletion list, as the path 
94-bTF4bfz8f266 with status EREOR 

9,852 INFO [main StorageClearupJob:263]: Remove /kylin2/kylin metadata/kylin-f586b510-553b-4dc3-bSf0-ee3469977b12 from deletion list, аз the path 

0-e23469977012 with status EREOR 

39,055 INFO [main StorageClearupJob:214]: Remeve /ky 

19700101000000_2922789$40817071255] of cube android_i 

9,855 INFO [main ScorageClearupJob:214]: Remove /Ry1 

ygube [21600100000 2016070200000] of айе рушу се 

01070731 17:32:39,899 INFO [шал Scorageclearupgopr214l: Remove /ку11л4/ ку11л, ретазата/ сү1ап-ааадсаз:-сзес-ав26-вг1е-иззезьгззазЭ Trom deletion 11st, аз тле path 






























[култ merodata/kylin-£9406275-96a9-4ecf-bf7e-3a725d0efci6 from deletion list, as the path 
be 
[kylin metadata/kylin-Sfec32ct-1435-4b7a-8309-dbbee3247a6f from deletion list, as the path 











initializing IIManager with config kylin_metadata@hbase 
DEBUG [main ITManager:226]: Loading II fron folder kyliz metadata (key='/invertedindex' ) Rkylin metadata@hbase 
868 DEBUG [main IIManager:232]; Loaded 0 11(з) 


+ Exclude table KYLIN 7ONRVMBOHC from drop list, аз it is newly created 
FO [main StorageCleanuplob: 
tabtes To Зе Dropped] --- 


Exclude table RYLINCHBERTXOSRH from drop list, аз it їз newly created 
: Exclude table KYLTN-C37CHMSYXA from drop list, as the table belongs to cube pvav_cube with status READY 
Exclude table KYLIN_ALDCUDIF1U from drop list, as the table belongs to cube рушу сше with status READE 
[Thread-0 ConnectionManageręiConnectionImplenrentation:2082]: Closing master protocol: Masterservice 
[Thread-0 ConnectionManagerėiConnectionImplenentation:167£]: Closing zcokeeper sessionid=0x25638f32f0d0a7c 


[Thread-0 ZooKeeper:684]: Session: 012563832104087с closed 
[main-EventThread ClientCsan:512]: EventTireed shut down 


















图 14-1 


根据 提示 ， 列 出 了 HBase 和 HDFS 这 两 方面 需要 清理 的 内 容 ， 为 本 次 检查 的 结果 。HDFS Ж 
件 如 图 14-2 所 示 。 





这 两 个 HDFS 文件 需要 被 删除 。 
HBase Table 如 图 14-3 所 示 。 





图 14-3 


HBase 中 这 个 表 需 要 被 删除 。 
注释 : 默认 情况 下 ， 该 工具 会 清理 的 资源 列表 如 下 : 


© 创建 时 间 在 2 天 前 ， 且 已 无 效 的 HTable。 

(©) 在 Cube 构建 时 创建 的 但 未 被 正常 清理 的 Hive 中 间 表 、HDFS 临时 文件 。 

© 根据 上 面 的 输出 结果 ， 检 查 资源 是 否 确 定 不 再 需要 。 接 着 ， 在 上 面 的 命令 基础 上 添加 "-- 
delete true" 选 项 ， 开 始 执行 清理 操作 ， 命 令 执 行 完成 后 ， 上 面 列 出 的 HDFS 文件 和 HTables 表 就 
被 删除 了 。 


S${KYLIN HOME}/bin/kylin.sh 
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如 图 14-4 所 示 ， 根 据 执行 的 清理 过 程 可 以 看 到 ， 删 除了 HDFS 的 临时 文件 (比如 失败 的 作 
业 产生 的 临时 HDFS 文件 ) ， 以 及 HBase 的 表 。 


TAC КЕБЕТЕ VE ayn ираса ET топ deletion ITT аз The Pa 


ba -7233-4266-b396 798 çSa9dp679 vith statas 
















as the path 





94-DTE4bzf8f266 with statas ERROR 

016-27-31 18:01:45,235 INFO [main SteragsCleanupJep:203]: емее /kylin2/kylin metadi 
510-553b-4dc3-b5£0-ce3463977b12 vish status ERROR 

45,838 INFO (main ScorageCleanvpJoo:214]: Remcve /kylin2/kylin metacata/kylin-f9d0€279-96a9-Jecf-bfe-3a125d0afc46 from deletion list, as the path| 
rdroid_ios_cube [19700101000000_2522739940317071255] of саке android_ios_cube 

0016-07731 18:01:48,838 INFO [main SterageCleanupJob:214]: Remcve /kylin2/kylin metadata/kylin-! 
уучу спе [20160701000000_20160702000000] ог сше рушу сше 





КЕ 





aa the path 





aigiin-sss6bs10-sS3b-adc3_bst0-ee3459917512 








2е8-1435-4Ь7а-#309-@&Ьег3247а6Е from deletion list, as the path| 





014-07-31 18:01:45,838 THEO (main SterageCleanupdob:214]: Remove /kylin2/kylin metadata/kylin-asaðcaSb-cbec-4a26-bfle-1b365b239469 from deletion list, as the path| 
гч пое [20160702000000_20160703000000] o£ cube pvuv_cube 

18:01:45,538 INFO (main Scoragecleanupyoo:222] е Taylin a x 56-072079375гЪ6 
18:01:45,263 INFO [main StorageCleanupjob:226] | Deleted hata path /kylin2/kylin petedata/kylin-03318fd9-2e2e-44cd-a166-010079375fbé 
18:01:45,263 INFO [main StorageCleanupJob:222] | Deleting hdfs path /kylin2/zylin_metadata/rylin- ada- i6af-b245-b7a5fa503£9 
INTO [main 3terag=CleanupJob:226] -cda-46cF-bbd5-b10a5fe50303 
шю 









16227-31. 












016-07-31 
016-07-31 
016-27-31 


10:01:45,077 























с Пмападег:232]: Leaded 0 II (2) 
IWO (main StorageCleanupgoo:123]: Exclude table КҮШІН ЛОЯКУМВОНС zzcm агор 
ШЕО (main ScerageCleanupyob:123] : Exclude table КҮН ЕХЕ7УОЭВН from drop 
18:01:46,146 IMFO Gasespyobi1341 + Deolude table MLO C37ONETIA fron drop 
18:01:46,146 Што 

18:01:46,146 INFO 
18:01:46,181 IMFO 
IMO (main !Шезеййл1зг1401] 
INO (main HBaseAdnin:958]: 
18:01:53,565 INFO [main StorageCleanupJob:161]: Dele 
18:01:52,568 Што € ConrecticnlanegertEConaectionInplemenzotion:2062. 
18:01:52,599 INEO 

016-07-31 18:01:52, 500 INFO 
016-07-31 18:01:52,501 


10 з newy стеатеа 
10 is newly created 

the table belongs to cube pvuv_cube with starus READY 
аз the table belongs Lo cube рушу сше with status READY 












Closing master protocol: Мазтегбегуісе 
Closing zcoreaper sessionid=)x15638£32f0etad4 















图 14-4 


接 下 来 ， 我 们 来 验证 一 下 对 HBase 清理 的 结果 。 执 行 清理 前 后 的 HBase 中 表 的 变化 情况 如 
图 14-5 所 示 。 


IN_C37CNMSYXA 
IN_H8KR7XO9RH 
leylin 
leylin_metadata 
fest 

lB row(s) іп 0.2960 seconds 





F> ["KYLIN_TONRVMBOHC", "KYLIN_ALDCUDTF1U", "KYLIN_AMLAK436TI", "KYLIN_C37CNMSYX 
", "KYLIN_H8KR7XO9RH", "kylin™, "kylin_metadata", "test"] 
se (main) :002:0> list 
ABLE 

IN_7ONRVMBOHC 
IN_ALDCUDTF1U 
IN_C37CNMSYXA 
IN ESER7XOSRE 

[eylin 

leylin_metadata 

jest 

|7 row(s) іп 0.0200 seconds 





> ["KYLIN_7ONRVMBOHC”, "KYLIN_ALDCUDIF1U", "KYLIN C37CNMSYXA", "KYLIN HEKR7XO9R 
", "kylin", "kylin metadata”, "test"] 
азе (main) :003:0> Ë 








图 14-5 


可 以 看 到 HBase 的 表 KYUN_AMLAK436TI 已 经 被 删除 了 。 
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Kylin 提供 了 标准 的 ODBC 和 JDBC 接口 ， 能 够 和 传统 BI 工具 进行 很 好 地 集成 。 分 析 师 们 


可 以 用 他 们 最 熟悉 的 工具 来 享受 Kylin 带 来 的 快速 。 
本 章 介绍 通过 Java 程序 调用 Kylin 的 JDBC 接口 访问 Kylin 的 Cube 数据 。 


首先 我 们 来 看 一 下 连接 Kylin 的 URL 格式 为 : 


KOR “sr хез, 那么 上 面 的 端口 号 应 该 为 Kylin 服务 的 HTTPS 端口 号 。 | 


kylin_project_name 必须 指定 ， 并 且 在 Kylin 服务 中 存在 。 
下 面 介绍 几 种 方式 访问 Kylin 数据 。 


1. 第 一 种 方法 : 使 用 Statement 方式 查询 
示例 完整 代码 如 下 : 
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在 eclipse 中 执行 之 前 先 引入 Kylin 的 Jar 包 ， 如 图 15-1 所 示 。 


4 @® гс 
4 88 com.my.kylin 
> 国 Anylistjava 
ь 9 QueryKylinsTjava 
о mÀ JRE System Library [jdkl.7.0 79] 





4 ЕА Referenced Libraries 
b kylin-coprocessor-1.5.3jar - FAKylinvapache-kylin-1.5.3-F- 
b @ lylin-jdbc-1.5.3jar - Fi\Kylin\apache-kylin-1.5.3-HBasel.x 
> @ kylinjob-1.5.3Jar - FAKylinkapache-kylin-1.5.3-HBase1.x-I 


15-1 


运行 结果 如 图 15-2 所 示 。 





E Problems @ Javadoc [8 Declaration Е Console 2% 
inated> QueryKylinST (1) [Java Application] C:\Program Files\Java\jdk1.7.0_79\bin\javaw.exe (2016477; 


JDBC 访问 方式 





total_selled sellers 
466.9037 

970.2347 17 
917.4138 14 
553.0541 10 
732.9007 18 


图 15-2 
2. 第 二 种 方法 : 使 用 PreparedStatement 方式 查询 
这 种 方式 支持 在 SQL 语句 中 传 入 参数 ， 支 持 如 下 的 方法 设置 参数 ， 
setString 
setlnt 
setShort 
setLong 
setFloat 
setDouble 
setBoolean 
setByte 
setDate 
setTime 
setTimestamp 


示例 完整 代码 如 下 : 
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运行 结果 如 图 15-3 所 示 。 


国 Problems @ Javadoc ® Declaration Console X 
terminated> AnylistWithPS (1) [Java Application] C:\Program FilesJava\jdk1.7.0_79\bin\javaw.exe (20167A 





llog4j:WARN No appenders could be found for logger (org.apache.kylin.jdbc.KylinConnection). 
ПоРАј :waRN Please initialize the log4j system properly. 

hog4j:WARN See http://logging.apache.org/log4j/1.2/faq.html#noconfig for more info. 

p7 Tickets 2013-09-10 16:52:46 





图 15-3 
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本 章 我 们 将 和 朋友 们 一 起 探讨 如 何 通过 RESTful API 方式 访问 Kylin， 这 种 方式 也 是 很 多 开 
发 者 喜爱 的 。 


目前 根据 Kylin 的 官方 文档 介绍 ，Kylin 的 认证 是 basic _ authentication， 加 密 算法 是 Base64。 
在 POST 的 header 进行 用 户 认证 ， 即 请 求 头 中 添加 Authorization， 如 下 : 


上 面 的 "Basic 用 户 名 和 密码 "的 格式 为 "Usemame:password" ， 即 对 username:password 进行 
base64 加 密 。 


在 使 用 RESTful API 时 ， 基 本 的 URL 路 径 为 kkylin/api， 因 此 不 要 忘记 在 一 个 确定 的 API 路 
径 的 前 面 加 上 /kylin/api。 比 如 ， 为 了 获取 所 有 Cube 实例 ， 我 们 可 以 通过 发 送 HTTP GET 请 求 到 
/kylin/api/cubes 。Kylin 提供 了 非常 多 的 RESTful APIS， 包 括 Query. Cube, Job. Metadata, 
Cache 等 方面 ， 本 章 不 会 对 所 有 的 内 容 进 行 实战 操作 ， 仅 选择 其 中 几 个 ， 毕 竟 操 作 大 同 小 异 ， 更 
详细 信息 请 访问 官网 。 


1. 生成 认证 鉴 权 文件 


因为 Kylin 的 认证 是 basic authentication， 加 密 算法 是 Base64， 所 以 为 了 方便 后 续 操 作 ， 这 
里 首先 生成 认证 鉴 权 文件 〈cookiefile.txt) 。 需 要 说 明 的 是 后 续 所 有 的 curl 命令 的 最 后 ， 我 们 都 
会 使 用 python -m json.tool 来 对 json 的 输出 进行 格式 化 操作 ， 方 便 阅读 。 


我 们 在 куйа 用 户 下 面 执行 命令 ， 生 成 鉴 权 文件 : 





返回 结果 : 


基于 Apache Kylin 构建 大 数据 分 析 平 台 】 





注意 : 

(1) ADMIN:KYLIN 使 用 Base64 编码 后 结果 为 : QURNSU46S1IMSU4=, 
(2) —с: cookie 写 入 的 文件 。 

(3) -H: 自 定义 header 传递 给 服务 器 。 

(4) -X: 指定 使 用 的 请 求 命令 。 


我 们 后 面 会 通过 Java 程序 来 使 用 Base64 进行 编码 和 解码 。 


2. 查看 生成 的 cookiefile.txt 文件 内 容 
cookiefile.txt 文件 内 容 如 图 16-1 所 示 。 


Netscape НТТР Cookie File 
http://curl.haxx.se/docs/http-cookies.html 
This file was generated by libcurl! Edit at your own risk. 





HttpOnly 192.168.1.128 FALSE /kylin/ FALSE 0 JSESSIONID 2097554592D6E068F79C78038579AEE7 


16-1 
可 以 看 到 cookiefile.txt 文件 中 包含 JSESSIONID。 


3. 查询 Cube 信息 
在 认证 完成 之 后 ， 可 以 复 用 cookie 文件 (不 再 需要 重新 认证 ) ， 向 Kylin 发 送 GET 或 
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POST 请 求 。 比 如 ， 查 询 cube 的 信息 : 


返回 结果 如 下 : 














F Apache Kylin 构建 大 数据 分 析 平 台 J 





通过 RESTful 访问 Kylin 








可 以 看 到 查询 出 了 myproject pvuv_cube 这 个 Cube 的 详细 信息 ， 包 括 Cube 的 uuid、 输 入 数 
据 量 、Cube 大 小 、segments 等 内 容 ， 并 且 返 回 内 容 为 Json 格式 。 


4. 通过 RESTful #38) SQL 


若 要 向 Kylin 发 送 SQL Query， 则 POST 请 求 中 的 data 应 遵从 JSON 规范 。 
我 们 这 里 构造 一 个 JSON 格式 的 文件 ， 文 件 名 为 firstjson， 内 容 如 下 : 





其 中 ，offset 为 SQL 中 相对 记录 首 行 的 偏 移 量 ，limit 为 限制 记录 条 数 ， 二 者 在 后 台 处 理 时 
都 会 拼接 到 SQL 中 去 。 


我 们 这 里 使 用 两 种 方式 来 发 送 SQL Query 请 求 : 
(1) 将 JSON 格式 的 内 容 放 到 命令 行 中 ， 如 下 为 一 行 命令 : 
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返回 的 结果 如 下 所 示 : 





通过 RESTful 访问 Kylin 








基于 Apache Kylin 构建 大 数据 分 析 平台 





最 后 输出 的 results 内 容 为 我 们 的 查询 结果 ， 因 为 我 们 设置 imit 为 2， 所 以 输出 两 条 记录 。 
(2) 使 用 JSON 格式 的 文件 〈 比 如 firstjson) 来 执行 获取 数据 : 


返回 的 结果 和 上 面 一 样 ， 这 里 只 输出 最 后 的 查询 结果 内 容 : 








5. 加 载 Hive 表 
我 们 先 通过 Web UI 看 一 下 learn_kylin 工程 下 面 的 表 信息 ， 如 图 16-2 所 示 。 


Kylin Insight Model Monitor System 
日 四 


Models Data Source 
T No table selected 


Tables ига 


Select your table 
| Ë DEFAULT 

EB KYUN_CAL DT 

EB KYUN_CATEGORY_GROUPINGS 

EB KYUN_SALES 





16-2 
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通过 RESTful 访问 Kylin 
下 面 我 们 通过 RESTful 来 加 载 Hive 表 : 
(1) 通过 Hive CLI 客户 端 登录 到 kylin flat db 数据 库 中 查询 Hive Ж 





(2) 通过 调用 REST АРІ 接口 加 载 Hive Æ (kylin_flat_ db.region (Ы) 


请 求 方式 : POST 
访问 路 径 : http://host:port/kylin/api/tables/ {tables}/ {project} 





返回 结果 如 下 ， 表 明 KYLIN_FLAT_DB.REGION_TBL 表 加 载 成 功 了 : 





(3) 再 次 通过 Kylin 的 Web UI 查看 learn_kylin 工程 下 面 的 表 信 息 ， 如 图 16-3 所 示 。 


Є} No table з 


Tables [+ [= [x [| 


Select your table 


| Е DEFAULT 
EB KYLIN_CAL_DT 
ЕВ KYLIN CATEGORY_GROUPINGS 
EB KYLIN SALES 
Ë KYLIN_ FLAT_DB 
EB REGION_TBL 








16-3 
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可 以 看 到 “Tables” 中 产生 了 KYLIN_FLAT DB 数据 库 以 及 REGION_TBL 表 。 


6. 构建 Cube 

请 求 方式 : PUT 

访问 路 径 : http://host:port/kylin/api/cubes/ {cubeName}/rebuild 
请 求 主体 包括 : startTime、endTime 和 buildType。 





注意 : 


(1) startTime 和 endTime 应 该 为 自从 1970-01-01 00:00:00 UTC 经 过 的 毫秒 数 。 
我 们 可 以 在 Linux 中 通过 Shell 进行 测试 : 





输出 结果 为 秒 数 : 


(2) buildType 可 选 的 类 型 有 : BUILD、MERGE 或 REFRESH。 
上 面 的 curl 命令 执行 后 返回 的 内 容 太 多 ， 这 里 省 略 中 间 部 分 内 容 : 
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基于 Apache Kylin 构建 大 数据 分 析 平 台 





如 果 我 们 立马 再 执行 上 面 的 命令 时 ， 出 现下 面 的 错误 提示 : 





说 明 这 个 时 间 段 的 Cube 已 经 正在 构建 ， 下 面 我 们 通过 Web 页 面 的 “Monitor” 查 看 ， 如 图 
16-4 所 示 。 


Kylin Insight Model Monitor System 
日 四 


Јо Slow Queries 


Cube Name: Q “eobsin:|LAST ONE WEEK "| 日 NEW © PENDING [J RUNNING © FINISHED 
E ERROR G озсәяоер 
Job Name $ з Last Modified Time ~ Duration Actions 
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返回 的 内 容 和 上 面 构建 Cube 的 结果 差不多 ， 只 不 过 参数 的 值 不 一 样 而 已 ， 比 如 : 


其 实 这 些 内 容 ， 我 们 可 以 从 Kylin 的 Web UI 的 “Monitor” 中 查看 。 


注意 : 

“d2caccf6-903a-41a6-968a-7ce147988d7c” 为 Job ID， 你 可 以 从 上 面 构建 Cube 返回 结果 的 
json 内 容 的 uuid 中 获取 ， 当 然 你 也 可 以 从 Kylin 的 Web UI 的 “Monitor” 的 详细 信息 中 查看 到 ， 
如 图 16-5 所 示 。 





© 12 Detail Information в 


Job Name kylin_sales_cube - 
20120201120000_20120 
202120000 - BUILD - 
PDT 2016-08-02 
07:54:25 


Job ID 2ea33595-60ba-4f2a- 
8fe4-0a5939cba0a7 


Duration 6.35 mins 


MapReduce Wai 1.18 mins 
ting 





H 16-5 
8. 使 用 Python 的 requests 模块 发 送 HTTP 请 求 访问 Kylin 


Python 的 模块 requests 已 封装 好 了 HTTP 请 求 与 响应 ，Session 对 象 解决 了 认证 、cookie 持 
久 化 的 问题 ， 因 此 适合 我 们 的 场景 使 用 。 
对 于 requests 模块 的 安装 方式 有 几 种 : 


@ pip install requests 
© 下载 源码 ， 通 过 python setup.py install 方式 安装 


具体 请 参考 https://github.com/kennethreitz/requests 说 明 。 
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requests 模块 已 经 安装 到 我 们 环境 的 Python 中 了 ， 下 面 我 们 先 简单 演示 一 下 : 


回 <Response [200> 说 明 请 求 已 成 功 ， 请 求 所 希望 的 响应 头 或 数据 体 将 随 此 响应 返回 。 
紧 接 着 ， 我 们 来 查询 一 个 Cube 的 信息 : 





通过 RESTful 访问 Kylin 


执行 完 rjson0 就 可 以 返回 kylin_sales_cube 这 个 Cube 的 信息 。 
我 们 继续 ， 下 面 再 来 执行 一 个 SQL 查询 ， 我 们 这 里 使 用 函数 实现 : 








执行 过 程 如 图 16-6 所 示 。 


| url = 'http://gpmaster:7070/kylin/api/user/authentication' 
Бе headers = {'Authorization':; "Вазіс QURNSU46511MSU4=') 
s = requests.session() 
S.headers.update ({'Content-Type': 'application/json')) 
s.post(url, headers=headers) 
return s 


>> def query(sql_str, session): 








"limit": 50000, ' \ 


post(url, data=json_str) 

к.]зоп() ['results'] 

results = json.dumps(r.json()['results'], sort_keys=True, indent=4) 
return results 





>> session = authenticate() 

>> sql_str = 'select part_dt, sum(price) as total_selled, count(distinct seller_id) as sellers from kylin_sales group by part_dt' 
>> print(query(sql_str,session)) 

[ 


"2012-01-03", 
"917.4138", 
"14" 


"2012-01-04", 
"553.0541", 
"10" 


"2012-01-01", 
"66.9037", 
"12" 





16-6 
实际 项 目 中 ， 我 们 是 将 上 面 的 代码 封装 到 Python 脚本 中 定时 调度 的 。 
9. Base64 编码 说 明 


前 面 我 们 提 到 Kylin 的 认证 是 basic authentication， 加 密 算 法 是 Base64， 下 面 对 Base64 进行 
简单 介绍 。 
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(1) Base64 编码 说 明 
Base64 编码 要 求 把 3 个 8 位 字 节 (3*8=24) 转化 为 4 个 6 位 的 字 节 (4*6=24) ， 之 后 在 6 
位 的 前 面 补 两 个 0， 形成 8 位 一 个 字 节 的 形式 。 如 果 剩 下 的 字符 不 足 3 个 字 节 ， 则 用 0 填充 ， 
输出 字符 使 用 ='， 因 此 编码 后 输出 的 文本 末尾 可 能 会 出 现 1 或 2 个 一 。 
为 了 保证 所 输出 的 编码 为 可 读 字符 ，Base64 制定 了 一 个 编码 表 ， 以 便 进行 统一 转换 。 编 码 
表 的 大 小 为 2^*6=64， 这 也 是 Base64 名 称 的 由 来 。 
Base64 是 网 络 上 最 常见 的 用 于 传输 8Bit 字 节 代码 的 编码 方式 之 一 。 


(2) Base64 编码 表 ， 如 图 16-7 所 示 











码 值 码 值 字符 码 值 字符 
0 32 g 48 w 

1 x 

2 У 

3 z 

4 0 

5 1 

6 2 

7 3 

8 4 


























图 16-7 
(3) 使 用 Java 代码 方式 实现 Base64 的 编码 和 解码 
Package com.my.kylin; 


import java.io.UnsupportedEncodingException; 
import org.apache.commons.codec.binary.Base64; 


public class Base64Demo { 
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ЕШ Java 程序 运行 结果 为 : 





第 17 = 
4Kylin 版 本 之 间 升 级 > 


本 章 我 将 和 朋友 们 一 起 来 看 一 下 Kylin 版 本 升级 。 任 何 一 款 软件 ， 升 级 是 常 有 的 事 ， 通 过 升 
级 可 以 解决 一 些 Bug， 或 者 增加 一 些 新 的 功能 ， 或 者 调整 接口 等 。 而 且 在 版 本 升级 之 前 ， 必 须要 
做 的 一 件 事情 就 是 备份 。 备 份 的 好 处 是 ， 如 果 你 升级 失败 了 ， 我 们 还 可 以 恢复 到 旧 的 版 本 ， 继 续 
使 用 原 有 功能 。 

本 章 我 们 只 会 介绍 Kylin 主流 版 本 的 升级 ， 对 于 之 前 比较 老 的 版 本 我 们 就 不 再 介绍 了 ， 而 且 
从 Kylin 1.5.1 版 本 开始 ， 由 于 metadata 原因 ， 不 再 向 后 兼容 ， 虽 然 也 可 以 通过 一 些 方法 解决 这 
个 问题 ， 但 是 建议 大 家 还 是 使 用 最 新 的 版 本 ， 毕 竞 从 功能 和 稳定 性 方法 都 提升 了 很 多 。 

首先 我 们 介绍 一 下 主流 版 本 的 升级 注意 事项 ， 最 后 再 进行 版 本 升级 的 实战 阶段 。 


























从 1.5.2 升级 到 最 新 版 本 1.5.3 


Kylin 1.5.3 版 本 的 metadata, Cube 数据 ， 都 是 和 1.5.2 保持 兼容 的 ， 你 的 cubes 不 需要 再 重 
新 构建 ， 但 是 升级 过 后 有 一 些 操作 需要 执行 : 

(1) 更 新 HBase 的 coprocessor 

Kylin 依赖 于 HBase 的 coprocessor 〈 协 处 理 器 ) 去 优化 查询 性 能 ， 对 于 新 版 本 的 Kylin Ж 


理 器 Jar 包 ， 因 此 必须 为 现 有 的 HTable 重新 部 署 HBase 协 处 理 器 Jar 包 。Kylin 提供 了 一 个 工 
具 ， 用 来 升级 协 处 理 器 Jar 包 ， 具 体操 作 如 下 : 
S$KYLIN HOME/bin/kylin.sh 


org.apache.kylin.storage.hbase.util.DeployCoprocessorCLI 
$KYLIN_HOME/lib/kylin-coprocessor-*.jar all 








КЕ =] 这 里 的 SKYLIN_HOME 为 最 新 版 本 的 Kylin 家 目录 。 | 








(2) 更 新 confykylin_hive_confxml 
从 Kylin 1.5.3 版 本 开始 ，Kylin 不 再 使 用 Hive 去 合并 小 文件 。 对 于 用 户 从 旧版 本 复制 过 来 的 
conf/kylin_hive confxml 文件 ， 需 要 将 “merge” 相 关 的 配置 项 删除 掉 ， 包 括 
“hive.merge.mapfiles”，“hive.merge.mapredfiles ”和 “hive.merge.size.pertask”， 这 样 从 Hive 
中 抽取 数据 时 可 以 节省 时 间 。 
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17.2 从 1.5.1 升 级 到 1.5.2 版 本 


Kylin 1.5.2 的 metadata 是 兼容 1.5.1 版 本 的 ， 你 的 cubes 不 需要 升级 ， 但 是 升级 过 后 有 一 些 
操作 需要 执行 : 


(1) 更 新 HBase 的 coprocessor 
参考 上 面 的 操作 (从 1.5.2 升级 到 最 新 版 本 1.5.3) 。 


(2) 更 新 confykylin.properties 
在 Kylin 1.5.2 版 本 中 ， 有 几 个 配置 项 被 废弃 了 ， 并 且 增 加 了 几 个 新 的 配置 项 。 
废弃 的 配置 项 : 


@ kylin.hbase.region.cut.small=5 
@ kylin.hbase.region.cut.medium=10 
@ kylin.hbase.region.cut.large=50 


新 增加 的 配置 项 : 


@ kylin.hbase.region.cut=5 
@ kylin.hbase.hfile.size.gb=2 


这 些 新 的 配置 项 决定 了 如 何 去 切 分 HBase 的 Region。 为 了 使 用 不 同方 法 切 分 Region 的 大 
小 ， 你 可 以 在 Cube 级 别 的 层面 覆盖 这 些 配 置 项 。 其 实 也 就 是 Kylin 的 Web UI 上 提供 了 一 个 重 
要 更 新 ， 即 允许 用 户 在 Cube 级 别 进行 自 定义 配置 ， 以 覆盖 kylin.properties 中 的 全 局 配置 。 如 在 
Cube 中 定义 kylin.hbase.region.count.max 可 以 设置 该 Cube 在 НВаѕе 中 Region 切 分 的 最 大 数量 ， 
如 图 17-1 所 示 ， 单 击 四 33 就 可 以 添加 参数 。 








© © о о © 7 


Cube Info Dimensions Measures Refresh Setting Advanced Setting Configuration Overwrites 


Property value is required. 


1. Cube level properties will overwrite 








== configuration in kylin prperties 
ere 
17-1 
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当 你 从 旧版 本 直接 将 kylin.properties 文件 复制 过 来 后 ， 记 得 要 删除 以 上 废弃 的 配置 项 并 添加 
新 增 的 配置 项 。 


(3) 添加 新 增 的 kylin job _conf inmem.xml 文件 

从 Kylin 1.5.2 版 本 开始 ， 在 conf 目录 下 面 新 增 了 一 个 名 为 kylin_ job_conf inmem.xml 的 文 
件 。 因 为 从 Kylin 1.5 版 本 就 已 经 引入 了 Fast Cubing 算法 ， 目 标 是 使 用 更 多 的 内 存 用 于 In-mem 
聚合 ， 利 用 Mapper 端 计算 先 完成 大 部 分 聚合 ， 再 将 聚合 后 的 结果 交 给 Reducer， 从 而 降低 对 网 
络 瓶颈 的 压力 。Kylin 使 用 这 个 新 的 配置 文件 来 提交 基于 In-mem Cubing 的 作业 ， 对 于 你 的 集群 
环境 ， 请 设置 合适 的 内 存 值 。 

此 外 ， 如 果 你 针对 不 同 大 小 的 Cube， 已 经 使 用 了 独立 的 配置 文件 ， 比 如 
kylin job_conf smallxml、kylin_ job_ conf medium.xml 与 kylin job_ conf large.xml， 那 么 此 时 你 
就 应 该 注意 了 ， 这 些 配置 文件 现在 都 已 经 废弃 掉 了 ， 而 是 只 使 用 kylin job confxml 和 
kylin_ job_conf inmem.xml 这 两 个 文件 用 来 提交 Cube 作业 。 


17.3 д куйп 1.5.2.1 升级 到 Kylin 1.5.3 实战 


下 面 进入 实战 阶段 ， 我 们 这 里 演示 如 何 从 Kylin 1.5.2.1 升级 到 截至 目前 最 新 的 Kylin 1.5.3 版 
本 ， 具 体 的 步 又 如 下 : 


1. 步骤 1 : 升级 前 必须 要 备份 元 数据 
使 用 Kylin 自 带 的 工具 metastore.sh 进行 备份 元 数据 : 
SKYLIN HoME)/bin/metastore.sh backup — 


产生 的 备份 的 元 数据 位 于 如 下 目录 : 





比如 我 们 查看 内 容 : 
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请 将 备份 的 目录 移 到 安全 的 地 方 ， 确 保 不 被 删除 。 
备份 完成 后 ， 可 以 关闭 Kylin 集群 环境 ， 然 后 进行 整个 集群 环境 升级 。 


2. 步骤 2 : 下 载 并 部 署 新 的 软件 包 


因为 我 们 的 HBase 版 本 为 1.1.5， 所 以 我 们 选择 的 Kylin 安装 包 为 apache-kylin-1.5.3- 
HBasel.x-bin.tar.gz， 并 将 安装 包 置 于 Kylin 的 家 目录 。 
解压 缩 : 





查看 解压 缩 后 的 目录 结构 : 





之 前 我 们 安装 Kylin 时 特意 使 用 kylin 软 链 接 并 指向 apache-kylin-1.5.2.1-bin， 然 后 所 有 的 环 
境 变量 配置 就 直接 使 用 kylin 目录 而 不 涉及 版 本 号 ， 就 是 方便 后 续 版 本 升级 。 

这 里 我 们 只 需要 将 kylin 重新 指向 Kylin 新 版 本 即 可 。 

首先 删除 软 链接 : 


然后 建立 软 链接 ， 指 向 最 新 版 本 : 


最 后 查看 软 链接 情况 : 
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3. 步骤 3 : 升级 HBase 的 coprocessor 
执行 Kylin 提供 的 升级 HBase 的 coprocessor 工具 : 





上 面 命令 执行 过 程 中 打印 了 很 多 日 志 信息 ， 最 后 的 日 志 信息 如 下 : 


可 以 看 到 新 的 kylin-coprocessor-1.5.3-0jar 已 经 升级 成 功 并 激活 使 用 了 。 
查看 HDFS 的 协 处 理 器 : 


返回 结果 (包含 旧 协 处 理 器 和 新 协 处 理 器 〉: 








4. 步骤 4 : 重启 Kylin 





Kylin 1.5.3 启动 过 程 中 会 新 创建 两 张 HBase 的 表 ， 启 动 日 志 部 分 如 下 : 





其 中 kylin_metadata_user 这 个 HTable 是 用 来 在 “Insight” 中 保存 查询 SQL 的 ， 本 章 最 后 
面 ， 我 给 大 家 演示 一 下 。 
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在 “Insight” 中 保存 查询 SQL 这 个 功能 在 Kylin 1.5.3 版 本 之 前 是 无 法 使 用 的 ， 需 要 自己 在 
HBase 中 创建 这 个 表 kylin_metadata_user 才 可 以 使 用 了 。 后 来 我 在 Kylin 中 提交 了 这 个 bug, il 
划 在 1.5.3 版 本 中 解决 。 后 来 Kylin 1.5.3 版 本 发 布 时 的 确 添 加 了 这 个 表 ， 但 是 列 族 不 对 ， 因 为 源 
码 中 使 用 的 列 族 是 q， 而 此 版 本 创建 的 却 是 a， 所 以 还 是 无 法 通过 “Insight” 中 保存 查询 SQL。 
这 里 我 们 还 是 进行 手动 修改 来 解决 这 个 问题 ， 我 又 提交 了 bug， 等 待 下 个 版 本 修复 。 

首先 我 们 先 查 看 Kylin 1.5.3 第 一 次 启动 后 ，HBase 中 的 表 “kylin_metadata_user” 结 构 : 





根据 返回 的 结果 ，kylin_metadata_user 表 只 有 一 个 列 族 为 “a”。 


下 面 我 们 来 重 现 问 题 给 大 家 看 一 下 ， 我 们 在 Kylin 的 Web UI 上 查询 ， 然 后 选择 保存 ， 如 图 


17-2 所 示 。 










1 select category, currency count 
2 from STREAMING_SALES_TABLE 
3 group by category, currency, country; 





1 了 х | 
Query String v 

Status: Project: myproject_pvuv 
Results (39) 
CATE..: CURR.x COUN.x EXPR$3 EXPR$4 
Toy USD INDIA 979048 14 
ELECT.. USO CANADA 2591322 28 
ELECT.. USD US 2090455 12 
Other USD us 2534799 34 
BOOK USD Оле 1343843 8 
TOY USD KORI 
CLOTH USD CHINA 1804840 11 


单 击 Save 弹出 窗口 ， 如 图 17-3 所 示 。 
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имт 50000 BE 


ыш — "| 
Start Time: 2016-08-03 05 1922 PST Duration: 0.43s 00 
Cubes: Sireaming_Sales_CubelsihiSaveli , 可 
Wat Visu RESANS dpon л 
Queries 中 查看 





Save Query 


Description 





Project myproject_pvuv 
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pvuv_sum 








Description 





填 好 名 称 后 ， 单 击 “Save” 没 有 反应 ， 查 看 kylin.log 日 志 后 ， 出 现 如 下 错误 提示 : 





根据 错误 内 容 “Column family q does not exist in region”， 可 以 知道 Kylin 使 用 的 列 族 是 
“a” ， 而 不 是 “ay 。 
下 面 我 们 进入 hbase shell， 给 表 'kylin_metadata_user 添 加 一 个 列 族 “q”， 如 下 操作 : 





然后 再 单 击 Web UI 的 “Save” 保 存 按钮 ， 弹 出 成 功 保存 界面 ， 如 图 17-4 所 示 。 
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Success! 


New query saved.. 
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下 面 我 们 看 一 下 Web UI HJ “Saved Queries”， 这 个 页 签 出 现 刚才 保存 的 SQL 命令 ， 如 图 
17-5 所 示 。 


nsight Model Monitor System 


оте, ADMIN ~ 


New Query Saved Queries Query History 


SQL Name: pvuv_sum 
Project: myproject_pvuv 
SQL: > 


SResubmit ж Remove 
I belect category,currency,country,sum(amount),sum(qty) 
2 rom STREAMING_SALES_TABLE 


3 group by category,currency,country; 








Previous m Next 
图 17-5 
当然 你 可 以 将 没 用 的 列 族 “a” 删 除 掉 : 





最 后 我 们 查看 一 下 “kylin_metadata_user” 里 面 的 内 容 ， 


如 图 17-6 所 示 。 
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hbase (main) :023:0> scan 'kylin_metadata user' 
COLUMN+CELL 


column=q:c, timestamp=1470231051511, value=[{"name":"pyuv sum","project":"my 
project_pvuv","sql":"select category, currency, country, sum(amount), sum(qty) \х 
SCnfrom STREAMING SALES TABLE \x5Cngroup by category, currency, country; ",”des 
cription":null, "id":"-611739288"}] 

1 row(s) in 0.0310 seconds 


ADMIN 





hbase (main) :024:0> Ё 


图 17-6 


1 .A 补充 内 容 


上 面 这 个 问题 我 们 可 以 通过 查询 源码 来 解决 ， 根 据 日 志 内 容 可 以 看 出 执行 QueryService 类 报 
错 ， 然 后 我 们 搜索 源码 中 的 这 个 类 ， 找 到 位 置 : 


我 们 查看 源码 QueryServicejava 时 发 现 里 面 有 saveQuery 方法 ， 并 且 很 容易 找到 
“kylin_metadata_user” 使 用 的 列 族 为 “q”， 部 分 代码 如 下 (具体 完整 代码 请 查询 源 代码 〉: 
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< 大 数据 可 视 化 实践 > 


Kylin 支持 与 企业 级 商业 智能 СВІ) 以 及 可 视 化 工具 无 缝 集成， 提供 标准 的 ODBC, JDBC 
驱动 以 及 REST API 接口 等 以 连接 流行 的 数据 分 析 、 展 示 工具 ， 如 Tableau, Microsoft PowerBI、 
Microsoft Excel, Apache Zeppelin、Saiku 等 。 其 实 对 于 Kylin 的 Web UI 也 提供 了 简单 的 可 视 化 
功能 。 

本 章 我 将 和 朋友 们 一 起 来 了 解 和 使 用 常见 的 连接 Kylin 的 可 视 化 工具 。 我 们 首先 对 常见 的 可 
视 化 工具 进行 简单 描述 ， 然 后 再 进行 实战 演练 。 


可 视 化 工具 简 述 


1. PÉR Excel 及 Power ВІ 

Microsoft Excel 是 当今 Windows 平台 上 最 流行 的 数据 处 理 软 件 之 一 ， 支 持 多 种 数据 处 理 功 
能 ， 可 以 利用 Power Query 从 ODBC 数据 源 读 取 数据 并 返回 到 数据 表 中 。 

Microsoft Power ВІ 是 由 微软 推出 的 商业 智能 的 专业 分 析 工 具 ， 给 用 户 提供 简单 且 丰 富 的 数 
据 可 视 化 及 分 析 功 能 。 

Power ВІ 及 Excel 不 支持 “connec tlive” 模 式 ， 请 注意 并 添加 where 条 件 在 查询 超大 数据 集 
的 时 候 ， 以 避免 从 服务 器 拉 取 过 多 的 数据 到 本 地 ， 甚 至 在 某 些 情况 下 查询 执行 失败 。 

2. Tableau8 和 Tableau9 

Tableau 是 Windows 平台 上 最 流行 的 商业 智能 工具 之 一 ， 它 操作 简洁 、 功 能 强大 ， 通 过 简单 
地 拖 电 就 可 以 将 大 量 数据 体现 在 可 视 化 图 表 中 ， 在 最 新 的 9.3 版 本 中 ， 用 户 体验 得 到 了 更 进一步 
的 提升 。 

3. Zeppelin 

Apache Zeppelin 是 一 个 类 似 Spark Notebook 的 基于 Web 的 交互 式 数据 分 析 工 具 ，Apache 
Kylin 团队 为 Zeppelin 贡献 了 Kylin Interpreter 以 让 Zeppelin 用 户 能 够 在 Notebook 中 与 Kylin 以 
标准 SQL 的 方式 进行 交互 式 查询 。 





4. Saiku ( Kylin、Mondrian 和 Saiku 架构 ) 


Saiku 是 一 个 轻 量 级 的 OLAP 分 析 引 擎 ， 用 户 可 以 在 非常 友好 的 界面 下 利用 OLAP 和 内 存 引 
擎 进行 向 下 钻 取 ， 过 滤 、 分 类 、 排 序 和 生成 图 表 。Saiku 提供 了 一 个 多 维 分 析 的 用 户 操作 界面 ， 
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可 以 通过 简单 拖拉 的 方式 迅速 生成 报表 。Saiku 的 主要 工作 是 根据 事先 配置 好 的 schema, KHA 
的 操作 转化 成 MDX 语句 提供 给 Mondrian 引擎 执行 ，Mondrian 将 输入 的 多 维 分 析 语 
4J МОХ 翻译 成 目标 数据 库 / 数据 引擎 的 执行 语句 (比如 SQL) ， 最 终 将 SQL 通过 JDBC fë 
交 给 Kylin 执行 。 

5. Caravel 

Caravel 是 Airbnb 〈 知 名 在 线 房屋 短 租 公 司 ) 开源 的 数据 探查 与 可 视 化 平台 〈 曾 用 名 
Panoramix) ， 该 工具 在 可 视 化 、 易 用 性 和 交互 性 上 非常 有 特色 ， 用 户 可 以 轻松 对 数据 进行 可 视 
化 分 析 。 

核心 功能 : 


ө ”快速 创建 数据 可 视 化 互动 仪表 盘 。 

өе 丰富 的 可 视 化 图 表 模板 ， 灵 活 可 扩展 。 

@。 细 粒度 高 可 扩展 性 的 安全 访问 模型 ， 支 持 主要 的 认证 供应 商 (数据库 、OpenID、 
LDAP. OAuth 等 ) 。 

ө 简洁 的 语义 层 ， 可 以 控制 数据 资源 在 UI 的 展现 方式 。 

© ”与 Druid 深度 集成 ， 可 以 快速 解析 大 规模 数据 集 。 


上 面 这 些 工具 都 是 目前 为 止 使 用 比较 多 的 ， 有 商业 版 本 收费 的 ， 也 有 开源 的 ， 每 种 工具 与 
Kylin 集成 后 或 多 或 少 存在 一 些 局 限 ， 朋 友 们 可 以 根据 需要 进行 取舍 ， 或 者 进行 代码 修改 以 满足 
自己 的 业务 需求 。 

为 了 提升 朋友 们 的 可 视 化 实践 经 验 ， 我 将 会 对 上 面 的 绝 大 部 分 组 件 进行 详细 演示 。 


18.2 зза Kylin ODBC 驱动 


目前 上 面 的 这 些 工具 是 通过 ODBC 或 JDBC 方式 连接 到 Kylin 服务 器 ， 然 后 提交 SQL 查询 
给 Kylin 处 理 并 返回 数据 。 

接 下 来 ， 我 们 将 介绍 在 Windows 平台 上 安装 Kylin ODBC 驱动 ， 以 便 后 续 工具 使 用 。Kylin 
提供 ODBC 驱动 程序 以 支持 ODBC 兼容 客户 端 应 用 的 数据 访问 。32 位 版 本 或 64 位 版 本 的 驱动 
程序 都 是 可 用 的 。 


1. 安装 Kylin ODBC 驱动 的 前 提 条 件 


Kylin ODBC 驱动 要 求 首先 安装 Microsoft Visual C++ 2012 Redistributable， 下 载 类 型 和 地 址 
如 下 : 


(1) 32 位 Windows 或 32 位 Tableau Desktop 
下 载 地 址 : http://download.microsoft.com/download/1/6/B/16B06F60-3B20-4FF2-B699- 
SE9B7962F9AE/VSU 4/veredist х86.ехе. 
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(2) 64 位 Windows 或 64 位 Tableau Desktop 
下 载 地 址 : http://download.microsoft.com/download/1/6/B/16B06F60-3B20-4FF2-B699- 
SE9B7962F9AE/VSU 4/veredist x64.exe。 
开始 正式 安装 Kylin ODBC 驱动 程序 ， 详 细 步 骤 如 下 。 
2. 步骤 1 : 安装 Kylin ODBC 驱动 
Microsoft Visual C++ 2012 Redistributable 安装 以 后 ， 就 可 以 安装 ODBC 驱动 了 。 


(1) 如 果 你 已 经 安装 ， 首 先 卸 载 已 存在 的 Kylin ODBC (除非 已 经 是 最 新 稳定 版 本 ) 。 
(2) 建议 安装 最 新 的 Kylin ODBC v1.5 版 本 GEF, MANA Kylin 版 本 ) 。 


下 载 地 址 : http://kylin.apache.org/download/KylinODBCDriver-1.5.zip 





(3) 解压 缩 后 ， 里 面 有 32 位 和 64 位 两 个 文件 ， 根 据 自 己 的 环境 进行 选择 安装 : 


3. 步骤 2 : 配置 系统 或 用 户 的 DSN 


(1) 从 电脑 (比如 Windows 7 操作 系统 ) 的 “控制 面板 ”中 选择 “管理 工具 ”， 如 图 18-1 
所 示 。 


EP. Dell Audio Flash Player (32 位 ) @; потеза 


上 Remoteapp emie [B windows cardspace — 上 windows Defender 


[IË windows 和 aa 中心 Wp sonam W вео 


е == w =. 


ЖК ram < за @ zuer 





18-1 


(2) 找到 数据 源 CODBC) 这 个 工具 并 打开 ， 如 图 18-2 所 示 。 
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像 iscsi REEF 2009/7/14 12:54 

fE Windows PowerShell Modules 2009/7/14 13:32 

Windows 内 存 诊 新 2009/7/14 12:53 
2014/3/1 10:15 
2014/3/1 10:15 
2009/7/14 12:54 
2009/7/14 12:54 


2009/7/14 12:54 
2009/7/14 12:54 
2009/7/14 12:54 
2009/7/14 12:53 
2009/7/14 12:53 
2009/7/14 12:53 
2009/7/14 12:57 











图 18-2 



















































































5 оовс ILA —— = Apache Kylin DSN Configuration 
т/а оси) 系统 пси | 文件 nsu | 驱动 程序 [Ж [жие [关于 Фа) 
НЕЕ С): Әг 
名 称 驱动 程序 添加 中 ) 
MyKylin Kylin0DBCDriver SN N. м 
Sample Amazon Redshift DSN Amazon Redshift (x64) [ ай) = zia = 
SCOTT_0DBC Oracle in OraDbllg_home REC- Protocol http E 
Server Host 1921681128 
Pot 7070 
== Usemame ADMIN 
4 т. gr 
Password өөөөө 
ODBC ў 5 Ў е. = 
Т) ЖЕШНЕН EEN RE 
一 Project = 
езж) (uma | кт | mi 
(сака ] 
图 18-3 


名 称 为 “MyKylin” 是 已 经 添加 好 的 DSN， 配 置信 息 包 括 Kylin 服务 的 IP 地 址 、 端 口号 、 
用 户 名 、 密 码 等 。 配 置 完成 后 ， 单 击 “Connect” 进 行 测试 ， 测 试 通过 的 话 ，“Project” 的 下 拉 
列表 会 列 出 目前 所 有 的 工程 名 称 ， 比 如 这 里 的 “learn_kylin”。 


1 8.3 通过 Excel 访问 Kylin 


(1) 从 微软 官网 下 载 和 安装 Power Query， 如 图 18-4 所 示 。 
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Choose the download you want 
[| | File Name Size 
m PowerQuery_2.35.4399.761 (32-bit) [en-us]msi 13.9 MB 
|Ы | PowerQuery_2.35.4399.761 (64-bit) [en-uslmsi 140 MB 
[| Release Notes (English-only).docx 31KB 
图 184 
选择 32 位 或 64 位 进行 安装 。 


安装 完成 后 在 Excel 中 会 看 到 Power Query 的 “Fast Tab” , ñ “From other sources” КЎ 
按钮 ， 并 选择 “From ODBC”， 如 图 18-5 所 示 。 


СЕСТРУ = ө п 








Е 














ПЕРТ 


ааа но 








Р 18-5 


(2) 在 弹出 的 “From ODBC” 数 据 连接 向 导 中 ， 输 入 Kylin 服务 器 的 连接 字符 串 ， 也 可 以 
在 “SQL” 文 本 框 中 输入 您 想 要 执行 的 SQL 语句 ， 单 击 OK，SQL 的 执行 结果 就 会 立即 加 载 到 
Excel 的 数据 表 中 。 


为 了 简化 连接 字符 串 的 输入 ， 推 荐 创建 Kylin 的 DSN， 可 以 将 连接 字符 串 简化 为 
DSN=[YOUR_DSN_NAME]， 正 好 我 们 之 前 创建 了 MyKylin 的 DSN， 这 里 可 以 直接 使 用 。 
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如 果 您 选择 不 输入 SQL 语句 ，Power Query 将 会 列 出 所 有 的 数据 库 表 ， 您 可 以 根据 需要 对 整 

张 表 的 数据 进行 加 载 。 

- 旦 服务 器 端 数据 产生 更 新 ， 则 需要 对 Excel 中 的 数据 进行 同步 ， 右 键 单 击 右 侧 列表 中 的 数 

据 源 ， 选 择 “Refresh”， 最 新 的 数据 便 会 更 新 到 数据 表 中 。 

为 了 提升 性 能 ， 可 以 在 Power Query 中 打开 “Query Options” 设 置 ， 然 后 开启 “Fast data 
load”， 这 将 提高 数据 加 载 速度 ， 但 可 能 造成 界面 的 暂时 无 响应 。 





通过 Power BI 访问 Kylin 


18.4.1 ”安装 配置 Power BI 


(1) 从 微软 官网 下 载 和 安装 Power BI， 如 图 18-6 所 示 。 





Ш Microso Power BI Products Solutions Partners Leam 
Create stunning reports and s р 
visualizations with Power BI н а, l 
Desktop 


Learn more about getting started and asua 
download the Power BI Desktop today. 





图 18-6 


(2) 启动 您 已 经 安装 的 Power BI 桌面 版 程序 ， 如 图 18-7 所 示 。 


Power BI ñama 
Desktop кишинин 
А i 





图 18-7 
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单 击 Get data 按钮 ， 并 选中 ODBC 数据 源 ， 如 图 18-8 所 示 。 

















x 
Get Data 
All 
At @ Salesforce Objects 
File @ Salesforce Reports 
Azure R корт 
Online Services appFigures (Beta) 
Other Ë GitHub (Beta) 
€ wailChimp (Beta) 
-Marketo (Beta) 
©) QuickBooks Online (Beta) 
E SparkPost (Beta) 
Ë Smartsheet | 
图 18-8 
单 击 ODBC 后 弹出 如 图 18-9 所 示 的 界面 。 
x 
From ODBC 
Import data from ODBC. 
Data Source Name (DSN) 
MyKylin 
b Advanced options 
OK Cancel 











图 18-9 


我 们 从 “Data Source Мате (DSN) ”中 选择 我 们 之 前 创建 的 DSN 名 称 “MyKylin”。 

如 果 您 在 前 面 没有 创建 DSN， 那 么 你 可 以 “Data Source Мате (DSN) ”选择 (None) ， 然 
后 在 “Advanced options” 中 填写 完整 的 连接 Kylin 的 地 址 ， 比 如 为 : 

DRIVER={KylinODBCDriver}:SERVER=http://192.168.1.128:PORT=7070:PROJECT=learn_kyl 
in， 如 图 18-10 所 示 。 
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From ODBC 


Import data from ODBC 


Data Source Name (DSN) 


(None) 


4 Advanced options 
Connection string (non-credential properties) (optional) 
DRIVER=[KylinODBCDriver):SERVER=http://192.168.1128;PORT=7070;PROJECT=learn_kylin| | 











SQL statement (optional) 








OK Cancel 


图 18-10 


然后 单 击 OK 后 ， 弹 出 要 求 输入 用 户 名 和 密码 的 界面 ， 如 图 18-11 所 示 。 


Access a data source using an ODBC driver. x 
Default or Custom © driver={KylinODBCDriver};port=7070;project=learn_... 
Use a username and password to access a data source with an ODBC driver. 
Windows 
Username 
Database admin 
Password 


Credential connection string properties (optional) 





g for driver=(KylinOD8CDriveri-port=7070;project=Ieam, 


Back Connect $ Cancel 











图 18-11 


另外 在 “Advanced options” 中 ， 我 们 可 以 在 “SQL ”文本 框 中 输入 您 想 要 执行 的 SQL 语 
句 。 单 击 OK，SQL 的 执行 结果 就 会 立即 加 载 到 Power ВІ 中 。 


(3) 如 果 您 选择 不 输入 SQL 语句 ，Power BI 将 会 列 出 项 目 中 所 有 的 表 ， 您 可 以 根据 需要 将 
整 张 表 的 数据 进行 加 载 ， 如 图 18-12 所 示 。 
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数据 可 视 化 实践 











Navigator 
р m 
Display Options ~ B ы 
a Ë, ODBC (asn=MyKylin) B] PART DT LEAF CATEGID ISTG SMEID — ISTG_FORMAT МАМЕ PRICE s 
2012/17: за ш 722; 
S DEFAULT B] 2012/1/1 1349 0 Others 0.7227 
1357 0 Others 16.7271 
oy T 
ШЕ KYUNLCALD 24760 0 FP-non GTC 13281 
画图 KYLIN CATEGORY_GROUPINGS 53064 0 FP-non GTC 137727 
S I) KYUN SALES 57990 0 Others 26259 
b ШЙ DEFAULT 63861 0 ABIN 76.1393 
89 0 Others 2: 
b DEFAULT 63889 0 Other: 42157 
80287 0 Fp-non GTC 370823 
95672 0 Auction 822338 
152801 0 FP-non СТС 88427 
2 156356 0 FP-non СТС 44.7485 
2012/1/1 170083 3 Others 63 2946 
i m ‚ 
Load Edit Cancel 








图 18-12 


这 里 我 们 将 所 有 的 表 都 选中 ， 然 后 单 击 Load 按钮 加 载 ， 进 入 如 图 18-13 所 示 的 界面 。 








图 18-13 


图 18-13 的 最 右边 可 以 看 到 刚才 加 载 的 三 张 表 ， 接 着 就 可 以 在 这 个 页 面 对 数 据 进 行 可 视 化 分 
析 了 。 
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18.4.2 ”实战 操作 





FE j Modeling | Format Dril 
=. EP Copy F D 图 | = F Ë H 目 Teesox | 门 ] 55 im | 


Ж Format Painter Стаде 
paste Get Recent Enter | Edit Refresh New New пс, Page Manage New Publish 
X Cut Ога” Sources Data Queries + page - Visual Рез" View- Relationships Measure ~ 
Clipboard External Data Insert View Relationships Calculations Share 

















Р 18-14 
1. Visualizations 
这 里 主要 用 来 选择 展示 数据 的 效果 图 ， 也 可 以 选择 多 个 可 视 化 图 形 对 相同 数据 进行 展示 。 图 
18-14 选择 的 为 donut chart 〈 双 层 圆 环 图 ) 。 
2. Dim 和 Measure 
用 来 放置 维度 和 度量 字段 ， 这 些 字 段 可 以 直接 从 3 处 拖拉 过 来 ， 并 在 图 4 中 展示 出 来 。 


3. Fields 

加 载 过 来 的 表 结构 都 在 这 个 地 方 显 示 ， 列 出 了 所 有 表 中 的 字段 ， 后 续 可 以 对 这 些 字段 的 值 进 
行 分 析 。 

4. 可 视 化 分 析 





最 终 分 析 的 结果 展示 在 这 个 区 域 ， 图 形 可 以 放大 、 缩 小 、 高 亮 显示 某 个 区 域 ， 对 某 个 字段 可 
以 排序 后 再 重新 展示 ; 图 形 对 应 的 数据 可 以 导出 到 本 地 ， 也 可 以 查看 图 形 对 应 的 实际 数据 等 操 
作 。 

比如 我 们 查看 图 形 对 应 的 详细 数据 ， 如 图 18-15 所 示 。 
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这 个 可 标 可 以 呈 示 和 了 基数 据 








图 18-15 


单 击 工具 栏 的 Refresh 按钮 即 可 重新 加 载 数 据 并 对 图 表 


| ЕЧ © с @ = | Untitled - P. 


进行 更 新 ， 如 图 18-16 所 示 。 








> 
Home Modeling Format Drill 


sas Bia Сору ГУ Га F Е E Ter 

$ Format Painter o 围 | BA a |22 d; ан 

Paste Get Recent Enter Edit Refresh New New = 
X Cut Data = Sources+ Data Queries ~ Раде = Visual S 


Clipboard External Data Insert 


Eg 18-16 








Power BI 的 功能 还 有 很 多 ， 比 如 建立 表 之 癌 的 关系 、 设 置 关联 系 件 ， 对 维度 指标 进行 下 个、 
i 上 卷 等 操作 ， 感 兴趣 的 朋友 们 多 去 钻研 一 下 ， 本 章 就 不 做 过 多 的 演示 了 。 








1 8.5 通过 Tableau 访问 Kylin 


Tableau 9 已 经 发 布 一 段 时 间 了 ， 社 区 有 很 多 用 户 希望 Apache Kylin 能 进一步 支持 该 版 本 。 
现在 可 以 通过 更 新 Kylin ODBC 驱动 以 使 用 Tableau 9 来 与 Kylin 服务 进行 交互 。 如 何 安装 最 新 的 
Kylin ODBC 驱动 ， 前 面 我们 已 经 介绍 过 了 ， 接 下 来 进入 Tableau 访问 Kylin 的 实战 环节 。 


Е 这 里 使 用 的 Tableau 版 本 为 93。 | 


(1) 连接 Kylin 服务 器 
在 Tableau 9.3 中 创建 新 的 数据 连接 ， 单 击 最 右 侧 面板 中 的 “其 他 数据 库 (ODBC)”， 如 图 
18-17 所 示 。 
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18-17 
在 弹出 窗口 中 选择 KylinODBCDriver， 然 后 单 击 “ 连 接 ”， 弹 出 配置 Kylin 相关 服务 的 窗 
口 ， 配 置 完 成 后 单 击 Connect 进行 测试 ， 测 试 成 功 后 ， 可 以 在 Projec 中 选择 已 经 存在 的 工程 名 
称 ， 如 图 18-18 所 示 。 








METAS (0080 вж п 
其 他 数据 库 (ООВС) 
aak ранни 
© пеня: куикоовсомег - Фау 
一 x 
eanna) Росі (ыр > 


Рин нне 
Pogo без дуб ы 
Dore Cancel 








B 18-18 


最 后 单 击 Done， 显 示 如 下 内 容 ， 如 图 18-19 тях, SURRE, RATAR 





默认 的 数据 库 “defaultCatalog”。 
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其 他 数据 库 (ODBC) 
ч) 
осн 
е ucut ycCecDmver ` 
一 
sarsa) 
ssa hep21020 17244 sce 7070 
saso азковяя 
леш Арым 
ESD C sees 
PROJECT=ieam_kyin 
Е 4 
сааш] ыза | 
18-19 


最 后 单 击 “ 确 定 ”， 进 入 Tableau， 如 图 18-20 所 示 。 


© defaultCatalog 





18-20 


(2) 在 左 侧 的 列表 中 ， 选 择 数 据 库 “defaultCatalog” 
的 表 。 结 果 如 图 18-21 所 示 。 


А 





并 单 击 搜索 按钮 ， 将 列 出 所 有 可 查询 
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© defaultCatalog 


sa 

мя 

(eak >) 

кш 

asan =] [Шш s (mamas. 
* 

лаал ps 

° ú. ва як» 


ш KYUN.CAL DT (DUYUN, CALOT) 
I. KYAN.CATEGOR._RY_GROUPINGS) 
El. күм SALES (DE..LTXYUN_ SALES) 





т wamx sq. 





图 18-21 


(3) 下 面 开始 在 Tableau 中 映射 数据 模型 ， 如 图 18-22 所 示 。 














© KYLIN_SALES (DEFAULT.KYLIN_SALES)+ (defaultCa... a 
sws nea 
моол И | 
хото man u сенсен изв 02608 уйду 
maaa man и — monomo Uwe 
0200 man в бола Memorable 2010220810504 VIERY 
повез хоад maa а kasa (Обен sir зизов 202229 ИШҚ у 
БЕЯ эзем e э зок зьме ошку 
k= man man » ese msoma иду 
= CE 


图 18-22 


用 鼠标 把 表 拖 电 到 右 侧 区 域 ， 就 可 以 添加 表 作 为 数据 源 ， 并 创建 好 表 与 表 的 连接 关系 ， 即 为 
图 18-22 中 的 1 和 2 步 操作 。 

另外 ， 图 18-22 中 的 右上 角 ， 有 两 种 数据 源 连 接 类 型 ， 选 择 “ 实 时 ”选项 以 确保 使 用 
“Connect Live” 模 型 。 


(4) 现在 你 可 以 进一步 使 用 Tableau 进行 可 视 化 分 析 ， 如 图 18-23 所 示 。 
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© ва © FA» 


EB. KVLIN_CAL_DT (D...T.KYLIN_CAL_DT) 
图 KYLIN_CATEGOR...RY_GROUPINGS) 
EB. KYUIN_SALES (DE...LT.KYLIN_SALES) 


Ер 新 自 定义 SQL 


а 
Il, ж#ит=® 


一 








图 18-23 


我 们 单 击 图 18-23 最 下 面 的 “工作 表 ” 或 者 “新 建 工 作 表 ”按钮 ， 进 入 可 视 化 分 析 界 面 ， 如 
图 18-24 所 示 。 





= UPOLUSER 
= ойл репмо ло: 
= USER репмїо PIDI 





m runsaus 
* ш САКОО 








图 18-24 


在 上 面 这 个 页 面 中 ， 你 可 以 通过 拖拉 维度 和 度量 字段 来 展示 数据 ， 也 可 以 选择 数据 以 何 种 图 
形 展示 。 比 如 我 们 根据 PART_DT 和 LEAF_CATEG ID 维度 ， 查 询 PRICE 度量 值 ， 如 图 18-25 
所 示 为 可 视 化 结果 。 
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图 18-25 
你 可 以 通过 选择 最 右边 的 图 形 模板 ， 以 不 同 的 可 视 化 方式 展示 数据 ， 比 如 图 18-26 所 示 。 

m= ши 

Eg 8 年 (PART_DT) = 季 杰 [PART DT 日 月 PART_DT) Б(РАВ] 
з=н ~ 

PART_DT PART_DT 

PART OTE P РАЙТ OTH HM 

= 





Ф LEAF CATEGID 
P SitPRICE) 
© Сенрксе 
LEAF_CATEGJID 
ш>: a 
1349 3 
шз; - 
总 计 (PRICE) 
[ 4669 a 
J eoo] 





图 18-26 


Kylin 本 身 对 于 BI 工具 Tableau 可 以 非常 好 地 整合 使 用 ， 而 且 效 果 也 确实 不 错 。 但 是 
Tableau 是 商业 版 本 ， 试 用 只 是 一 段 时 间 ， 后 续 如 果 再 使 用 就 需要 收费 。 下 面 我 们 介绍 另 一 个 开 
源 免费 的 BI 工具 Saiku。 
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1 8.6 Kylin + Mondrian + Saiku 


Mondrian 是 一 个 OLAP 分 析 的 引擎 ， 主 要 工作 是 根据 事先 配置 好 的 schema， 将 输入 的 多 维 
分 析 语 句 MDX (Multidimensional Expressions) 翻译 成 目标 数据 库 /数据 引擎 的 执行 语言 (比如 
SQL) 。 

Saiku 提供 了 一 个 多 维 分 析 的 用 户 操作 界面 ， 可 以 通过 简单 拖拉 的 方式 迅速 生成 报表 ， 用 户 
可 以 在 非常 友好 的 界面 下 利用 OLAP 和 内 存 引 擎 进行 向 下 钻 取 ， 过 滤 、 分 类 、 排 序 和 生成 图 
表 。Saiku 的 主要 工作 是 根据 事先 配置 好 的 schema， 将 用 户 的 操作 转化 成 MDX 语句 提供 给 
Mondrian 引擎 执行 。 

Kylin + Mondrian + Saiku 是 一 个 简单 的 三 层 架 构 ， 如 图 18-27 所 示 ， 实 现 了 这 样 一 个 OLAP 
系统 。 





图 18-27 


Github 上 已 经 提供 了 这 个 集成 框架 编译 好 的 相关 jar 包 ， 下 载 地 址 为 : 


https://github .com/mustangore/kylin-mondrian-interaction 

在 此 ， 非 常 感谢 此 开源 项 目的 作者 mustangore。 

照 着 这 个 项 目的 指引 ， 可 以 很 轻松 地 搭建 这 么 一 个 三 层 的 系统 。 

Mondrian 的 schema 没有 比较 好 的 图 形 配置 工具 ， 需 要 手写 Mondrian schema 的 XML 文 
档 ， 文 档 格式 参考 官方 文档 ， 通 过 Saiku 上 传 。 

下 面 我 们 将 进入 正式 安装 和 使 用 Kylin + Mondrian + Saiku 这 三 层 系统 ， 因 为 Kylin 的 集群 环 
境 已 经 存在 ， 所 以 我 们 只 需要 安装 Mondrian 和 Saiku 组 件 即 可 。 

1. 首先 下 载 Kylin 和 Mondrain 集成 包 


下 载 地 址 如 下 ， 页 面 如 图 18-28 所 示 。 
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12 mustangore / kylin-mondrian-interaction 


CYCode Dlssues 4 [Pull requests O — ¿Pulse — |l Graphs 


Some information about Apache Kylin interaction with Pentaho Mondrian 


Ф 4 commits 


P 1 branch 


© 0 releases 


Branch: master v 


New pull request 


9 mustangore Fix for Kettle-Core to integrate Kylin in Pentaho Business Analytics 


Ba examples 
Ba kettle-core 
тауп 

和 mondrian 
йа saiku 

B) .gitignore 
Ë) READMEmd 





Init commit 

Fix for Kettle-Core to integrate Kylin in Pentaho Business Analytics 
Init commit 

Add Mondrian 3.7 Kylin dialect and Bug fix patch 

Init commit 

Init commit 


Fix wrong link to examples folder 


图 18-28 


如 果 你 的 Linux 环境 可 以 连接 外 网 ， 可 以 直接 使 用 git 下 载 : 


下 载 完成 后 ， 会 在 上 面 命令 执行 的 当前 路 径 产生 kylin-mondrian-interaction 目录 。 
如 果 你 的 Linux 环境 无 法 使 用 git 下 载 ， 那 么 也 可 以 从 官网 直接 下 载 ， 如 图 18-29 所 示 。 


T mustangore / kylin mon: 





eraction Фмаһ 15 зә 59 Ук ® 


«Code Missues 4 Mpullreauests 0 Pulse Ш Graphs 


роте information about Apache Kylin interaction with Pentaho Mondrian 


Ф 4 commits 


Branch: master w 


Ea examples 
Ba kettlə-core 


yin 





Plbmnch 


GO releases 


At 1 contributor 


New pull request 


Я. mustangore Fx tor Kettie-Core to integrate Kylin in Pentaho Business Analytics 


Init commit 
Fix for Kettie-Core to integrate Kylin in Pentaho Business Analytics 


Init commit 


Find fie 


Clone with HTTPS © 
Use Git or checkout with SVN using the web URL 


netos: //gttrup.com/mustangore/ky1in-nenori | @ 


Open in Desktop 


Download ZIP 














图 18-29 


单 击 Clone or download， 从 下 拉 框 中 选择 “Download ZIP” 即 可 下 载 到 本 地 ， 然 后 再 上 传 到 


Linux 环境 上 。 
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2. 下 载 和 安装 Saiku 
Saiku 的 下 载 地 址 为 ，http://community.meteorite.bi/， 页 面 如 图 18-30 所 示 。 


salku @ 


Community 


4 


Download Saiku CE 





图 18-30 


单 击 Download Saiku CE 下 载 即 可 ， 截 至 目前 下 载 的 包 为 : saiku-latest.zip。 
这 里 将 Saiku 安装 在 /software 目录 下 面 ， 解 压缩 Saiku 安装 包 : 





下 面 我 们 将 kylin-mondrian-interaction 下 面 的 一 些 Jar 包 复 制 到 Saiku 的 /software/saiku- 
server/tomcat/webapps/saiku/WEB-INF/lib/ 目 录 下 面 ， 目 的 是 集成 Kylin + Mondrian + Saiku 三 层 系 
统 ， 具 体操 作 如 下 : 


(1) 添加 KylinJDBC 的 Jar 包 。 
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(2) 添加 使 用 Kylin dialect 编译 过 的 Mondrian 4.4 的 Jar 包 并 删除 旧 的 包 。 





(3) 添加 一 个 新 的 HTTPClientjar 并 删除 旧 的 jar 包 。 


3. 启动 Saiku 


在 Saiku 启动 过 程 中 ， 可 以 去 查看 一 下 tomcat 启动 日 志 是 否 有 异常 ， 日 志 路 径 为 : 


4. 登录 Saiku 
访问 http/192.168.1.128:8080/， 默 认 用 户 名 和 密码 都 是 admin 。 
首次 登录 时 提示 如 下 信息 ， 如 图 18-31 所 示 。 


оо 


Ta 
| Login 


| Could not find license, please get a free license from 
http:/Micensing.meteorite.bi. You can upload it at 
http:Jserver:8080/upload.html 





图 18-31 


根据 提示 ， 我 们 需要 从 http://licensing.meteorite.bi/ 网 站 上 获取 一 个 免费 的 license， 然 后 再 上 
传 到 http://192.168.1.128:8080/upload.html 页 面 。 

演示 一 下 申请 license 的 过 程 ， 首 先 访问 http://licensing.meteorite.bi/， 如 图 18-32 所 示 ， 如 果 
没有 账号 ， 需 要 申请 一 下 。 
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A meteorite 
.bi 











图 18-32 
申请 注册 账号 请 直接 单 击 “Sign up”， 填 写 相 关内 容 并 验证 邮箱 即 可 ， 这 里 不 做 演示 。 
我 们 直接 输入 用 户 名 和 密码 后 登录 http://licensing.meteorite.bi/， 单 击 “Create new License” 
并 填写 相关 的 内 容 ， 如 图 18-33 所 示 。 




















图 18-33 


然后 单 击 SAVE， 弹 出 页 面 ， 如 图 18-34 所 示 。 


A meteorite 
„Di 








звав 

















图 18-34 
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最 后 单 击 DOWNLOAD LICENSE 下 载 我 们 自己 申请 的 license (license gpmasterlic) ， 并 访 
问 http://192.168.1.128:8080/upload.html 进行 上 传 ， 如 图 18-35 所 示 。 





httpy/gpmaster8080 要 求 提供 用 户 名 和 密码 。 
您 与 此 网 站 建立 的 不 是 私密 连接 , 


BPZ: admin 








Drag your license or click in this area. 





图 18-35 


如 果 提 示 身 份 验证 则 输入 默认 的 用 户 名 和 密码 为 admin 即 可 。 
把 刚才 下 载 的 license_gpmaster.lic 拖拉 到 虚线 框 内 区 域 ， 或 者 单 击 虚线 框 内 区 域 行 加 载 。 
通过 上 面 的 操作 ， 我 们 就 可 以 访问 Saiku 了 ， 主 页 面 如 图 18-36 所 示 。 





n =o oe. 


Welcome Features Get Help 


salKU @ 


CUTTING EDGE OPEN SOURCE ANALYTICS 





Quick Links 


Create a new avery 

















18-36 
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18.7 实战 演练 : 通过 Saiku ihi Kylin 


截至 目前 ， 准 备 工作 都 已 经 完成 了 ， 本 节 就 开始 实战 阶段 ， 即 通过 Saiku 去 访问 Kylin， 然 
后 通过 可 视 化 展示 数据 。 

本 节 接 下 来 我 们 将 举 两 个 Schema 例子 ， 一 个 是 访问 工程 “myproject pvuv” 下 名 称 为 
“myproject pvuv_cube ”的 Cube ， 另 一 个 是 访问 工程 “leamkylin ”下 名 称 为 
“kylin_sales_cube” 的 Cube。 相 对 来 说 ， 第 一 个 稍微 简单 一 点 ， 第 二 个 复杂 点 ， 目 的 是 让 朋友 
熟练 掌握 这 一 块 内 容 。 


18.7.1 第 一 个 Schema 例子 : myproject_pvuv_cube 的 演示 


1. 步骤 一 : 编写 Mondrian Schema 文件 


Kylin 中 的 每 一 个 Cube 都 对 应 Saiku 中 的 一 个 schema 文件 ， 因 此 我 们 需要 创建 一 个 Schema 
文件 。 关 于 Mondrian 编写 Schema 的 详细 文档 请 参考 : 


我 们 来 编写 第 一 个 Schema 文件 webpvuv_schema.xml， 内 容 为 : 
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2. 步骤 二 : 添加 Schema 和 Kylin 的 数据 源 
管理 控制 台 如 图 18-37 所 示 。 





Welcome Features Get Help 


SalKU @ 


CUTTING EDGE OPEN SOURCE ANALYTICS 


Saku has ha powər to chango the way you think about your эшпес: and make decisions. Saiku 
provides powerful, web base analytics br everyone in your organisation. Quicky and easiy 
analyse cata tom any data source to dscover wnatis realy happening inside and outside your 
organsaton. 


Quick Links 


= 


图 18-37 
单 击 图 18-37 中 的 管理 控制 台 的 图 标 “A”， 进 入 数据 源 配置 界面 ， 如 图 18-38 所 示 。 
00000 


管理 控制 台 + 








User Management 
Add User 
admin 
smith 
Data Source Management 


Data Sources 
жашай 
myproject_pvuv_source 
Schema 
;hnschema 


Webpvuv_schema xml 


License 
Information 
Users List 





18-38 


首先 我 们 单 击 Add Schema 来 添加 Schema 文件 ， 如 图 18-39 所 示 。 
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Schema Management 


选择 文件 | мерруџу ѕспета хт! 
Schema Name: 


webpvuv_schema 


Upload 





图 18-39 


单 击 “ 选 择 文件 ”添加 之 前 我 们 编写 好 的 文件 webpvuv_schema.xml， 然 后 在 “Schema 
Name” 中 添加 一 个 名 称 ， 最 后 单 击 Upload 上 传 文件 ， 如 果 上 传 成 功 会 给 出 提示 。 
接着 我 们 再 单 击 Add Data Source 来 添加 Kylin 数据 源 ， 如 图 18-40 所 示 。 

myproject_pvuv_source 


Connection Type: 


Mondrian v 


URL: 


jdbc-kylin://192.168.1.128:7070/myproject_pvuv 


Schema: 


/datasources/webpvuv_schema xml ` 


Jdbc Driver: 


org.apache kylin jdbc Driver 


Username: 


admin 


Password: 


Security: 


None M 








图 18-40 





对 以 下 配置 项 进行 说 明 : 


(1) Connection Type 
配置 为 : Mondrian。 


(2) URL 
配置 为 : jdbc:kylin:/192.168.1.128:7070/myproject_pvuv。 
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Kylin 的 人 P 地 址 、 端 口号 以 及 Project 名 称 根据 实际 情况 填写 。 
(3) Schema 

配置 为 : /datasources/webpvuv_schema.xml 

根据 实际 配置 的 schema 文件 进行 选择 填写 。 
(4) Jdbc Driver 

配置 为 Kylin 的 JDBC 驱动 : org.apache.kylinjdbc.Driver。 


(5) Username/Password 
填写 Kylin 的 用 户 名 和 密码 ，Kylin 默认 为 admin/KYLIN。 
填写 完 配 置 后 ， 单 击 Save 进行 保存 ， 结 果 如 图 18-41 所 示 。 
从 图 18-41 中 我 们 可 以 看 出 数据 源 和 Schema 都 已 经 创建 好 了 。 


n = © Ө Өө © 


Home» юва + 


User Management Create Data Source 
Add User 
Name: 
admin 
smith myproject_pvuv_source 
Data Source Management 
Data Sources Connection Type: 


Add Data Source 


myproject_pvuv_source Mondrian 


Schema 
Add Schema URL: 
jdbc:kylin://192 168 1.128-7070/myproject_pvuv 
License = 
Informaton 
Users List sene, 


/datasources/webpvuv_schema xml 


Jdbc Driver: 


org apache kylin jdbc Driver 





图 18-41 


3. 步骤 三 : ЕНЕ Kylin 的 Сире 数据 
回 到 Saiku 的 家 目录 ， 单 击 Create a new query 创建 查询 ， 图 18-42 所 示 。 








сак) ө 


CUTTING EDGE OPEN SOURCE ANALYTICS 
Заки has the power to change the way you think about your business and make decisions. Salku 
provides powerful, web based analytics for everyone in your organisation. Quickly and easily 


analyse data from any data source to discover what is really happening inside and outside your 
organisaton. 


Quick Links 


Create a new query Create a dashboard 


ТЕКТ 


图 18-42 














а 无 论 采 用 何 种 方式 ， 将 创建 新 的 查询 页 面 ， 如 图 18-43 


所 示 。 





myproject_pvuv_cube . Ге = 


指标 添加 

+” myproject_pvuv_cube 
РУЙ 列 
ua 


Y FactDim f 
时 间 
айю 
城市 ID 
网 站 ID не ` 
操作 系统 








18-43 
其 中 包含 如 下 几 部 分 内 容 : 


(1) 多 维 数据 
从 下 拉 框 中 选择 需要 查询 的 Cube。 
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(2) 指标 
选择 查询 的 度量 字段 。 


(3) 维度 

选择 根据 哪些 维度 组 合 进行 查询 度量 指标 。 

我 们 单 击 “指标 ”和 “维度 ”里 面 的 字段 ， 就 会 自动 添加 到 右 侧 的 对 应 位 置 并 展示 出 数据 结 
果 ， 如 图 18-44 所 示 。 


ma GHD mne гй 
20160630 G03 60301 1 
G G 5 


20100732 000 90502 + 
20160710 002 0002 2 
2016-07-19 м сш 2 





图 18-44 


我 们 可 以 在 查询 结果 的 数据 上 单 击 一 下 ， 就 会 弹出 对 话 框 ， 可 以 进行 相关 的 操作 ， 比 如 保留 
某 一 行 数据 ， 删 除 指定 的 维度 ， 以 及 对 维度 的 值 进行 过 滤 等 操作 ， 如 图 18-45 所 示 。 


时 间 省 份 D 城市 DO руй 
2016-06-30 G0301 
G0402 
2016-07-02 G0502 
G0302 
Keep Only G0402 
Include Level > 
Keep and Include Level > 


Remove Level > на 
Filter Level 省 份 ID 
FactDim 城市 ID 





图 18-45 
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我 们 也 可 以 在 所 选 的 维度 〈 即 图 中 “ 行 ” 位 置 ) 中 对 维度 值 进行 过 滤 ， 如 图 18-46 所 示 。 


090. C Show Unique Names 
ито 

а Use Resut 
s Subtotals | Nore ， 
не 

Parametor Name 





图 18-46 


这 里 我 们 只 需要 查询 “时 间 ” 维 度 值 为 “2016-06-30”， 使 用 “>” 箭 头 进行 添加 维度 值 ， 
单 击 OK， 显 示 结果 如 图 18-47 所 示 。 


时 间 省 份 ID 城市 ID PB 
2016-06-30 G03 G0301 
GM бо 5 





18-47 


上 面 展 示 的 数据 都 是 表格 模式 的 ， 下 面 我 们 以 各 种 图 表 模式 进行 可 视 化 展示 。 
其 实在 查询 页 面 的 最 右边 有 两 个 图 标 : 一 个 是 表格 模式 ， 另 一 个 是 图 表 模 式 ， 如 图 18-48 所 
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时 间 
2016-06-30 


2016-07-02 
2016-07-18 
2016-07-19 


省 份 ID 
903 
G04 
905 
903 
G04 


城市 ID РУЙ 
90301 

90402 5 
90502 4 
90302 2 
90402 2 





我 们 从 图 表 模 式 中 选择 “ 饼 图 ”进行 可 视 化 查询 ， 这 时 表格 模式 的 数据 就 立马 变 成 “ 饼 
图 ”模式 了 ， 如 图 18-49 所 示 。 


列 





FactDim 


图 18-48 


E 
æ 
" 
£ 
a 


ве 


т 2015-06-30 ~ G99 ~ G030 шш 2016-08-30 ~ 904 ~ 90402 Ш 2010-07-02 ~ GOS ~ 00502 Ш 2216-07-10 ~ G03 ~ 0002 
m 2015-07-19 ~ 004 ~ 9402 


>а 


эде 


89 191 


ба} 193, 


= 9 





图 18-49 


我 们 再 选择 “多 图 式 柱 状 图 ”进行 可 视 化 查询 ， 结 果 如 图 18-50 所 示 。 
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и COCH р “п # * + m э p U гч 
бе 
指标 pe 
meh 
Pt 
2015-06-30 2016-07-02 2016-01-18 
я 2 А > 
‚ ишн 
* бз ~ 60301 904 ~ 5042 : 
f 59 2015-07-19 
5 
Facom i 
时 间 š 
省 份 中 z 
城市 DD 下 
N a ~ со? 
we > 
图 18-50 
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18.7.2 ”第 二 个 Schema 例子 : kylin_sales_cube 的 演示 
我 们 来 编写 第 二 个 Schema 文件 sale_cal_dt.xml， 内 容 为 : 
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同样 ， 需 要 通过 Saiku 的 “管理 控制 台 ” 加 载 Schema 文件 ， 并 建立 数据 源 ， 如 图 18-51 所 
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n ъъ © 0.9. 


Home 尚未 保存 (6) тана к 



















User Management Create Data Source 



















Add User 
Name: 
admin 
x. sale_cal_dt_source 
куйп 
Data Source Management Соппесбіоп Туре: 
Data Sources 
Add Data Source Mondrian 
sale_cal_dt_source 
myproject_pvuv_source URL: 
Schema 
/lin:// /i 
Add Schema jdbe:kylin:192.168.1.128:7070/learn_kylin 


sale_cal_dtxml 


Schema: 
webpvuv_schema xml 
License Idatasources/sale_cal_dt xml 
Information 
Users List Jdbc Driver: 


org.apache kylin jdbc.Driver 


Username: 


admin 


Password: 
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数据 源 建 好 后 ， 我 们 就 可 以 进行 数据 可 视 化 分 析 了 。 

比如 我 们 查询 周 开 始 时 间 (WEEK_ ВЕС рТ) ， 一 级 分 类 产品 (МЕТА САТЕС МАМЕ) 
的 最 大 和 最 小 订单 金额 (PRICE ) ， 如 图 18-52 所 示 〔 可 视 化 图 表 模型 比较 多 ， 这 里 只 演示 两 个 
图 表 模 式 ) 。 





n = об ө © Sal 
hore > RAE 
Ë m оу ЕЕ зп а # + ш о> alo 
t kin 
7 


7 measures 
со вы Б 5 Bisness £ distal Cameras k Photo 
MNIPRICE) MAXFRICE) MINPRICE) MAXIPRICE) MIMPRICE) MAX(PRICE) MINERICE) 
2706 эт 

EE элт тө 





SUMIPRICE 

EEI 
ne 列 = nao 
та 
“23 


1033 
wa 





META_CATEG_NAME_Hierarehy 
МЕТА САТЕО МАМЕ 


е кушм слі от 
м 
WEEK_BEG_DT 





WEEKLSEGLDT 











18-52 
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图 表 可 视 化 展示 1 如 图 18-53 所 示 。 
z0000 


Чоте 尚未 保存 16) 
“= в/с mm Б Г = е вл  @ ® ЕЮ @ | 
[жик 添加 
ва | 

[7 measures 指标 а, 
а onas 2012-01-05 212-01-12 

махфжасЕ) 
MAxPRICE) 

ViNPREE 
MINIPRICE 
SUMFRICE) 
жт M ` 
Калы: META_CATEGNAME_Heraicny 
ү МЕТА САТЕО, НАМЕ e рб 
WEEK 8EG_DT 
|> kwun_cArEsonv_ cnoupmss 
。META_CATEG_NANE_Herarm {р = 


KYLIN_CAL_DT- WEEK_BEG_D1 
WEEK_BEG_DT 





иеп 
KYLIN_CATEGORY_GROUPINGI 








图 18-53 
图 表 可 视 化 展示 2 如 图 18-54 所 示 。 
а о» [э š ә íq E à k mm яди е 
P5 = tas 


列 区 





META_CATEG_NAME_Hiorarchy 
META_CATEG_NAME 


эшле о mraos эгеси 
z s К l = 
KYLIN_CAL_DT- WEEK_BEG_DT ; үй ka 








WEEK_BES DT 
2012-01-19 ao 
не й и в] 
© al 
Р 18-54 


由 于 篇 幅 有 限 ， 其 他 形式 的 Schema， 以 及 各 种 “图 表 模 式 ” 可 视 化 这 里 就 不 再 介绍 了 ， 感 
兴趣 的 朋友 请 自行 研究 。 另 外 “表格 模式 ”中 也 提供 了 几 种 查询 方式 ， 朋 友 们 可 以 查看 一 下 。 


18.7.3 ”Saiku 使 用 的 一 些 问题 


在 我 们 项 目 使 用 Saiku 的 过 程 中 ， 也 遇 到 一 些 问 题 ， 不 过 只 要 朋友 们 对 Kylin 的 SQL 足够 
了 解 ， 然 后 针对 出 现 的 问题 对 Mondrian 进行 定制 ， 相 信 很 多 问题 还 是 可 以 解决 的 。 
细心 的 朋友 可 能 发 现 ， 为 什么 上 面 指标 中 的 “UV 数 ” 不 进行 展示 ? 其 实 我 也 不 想 这 样 的 ， 
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但 是 Mondrian 不 支持 。 如 果 你 使 用 “UV 数 ”指标 的 话 ， 会 导致 下 面 的 错误 发 生 ， 即 不 支持 
Count Distinct 语法 : 





不 过 没关系 ， 这 个 问题 应 该 是 很 多 朋友 使 用 过 程 中 都 会 遇 到 的 ， 同 样 有 赞 数据 团队 也 遇 到 这 
个 问题 了 ， 并 且 他 们 通过 修改 源码 解决 了 这 个 问题 ， 对 他 们 表示 感谢 。 我 们 下 面 会 通过 修改 源码 
来 解决 这 个 问题 ， 最 后 也 会 满足 朋友 们 小 小 的 愿望 ， 演 示 “UV 数 ” 指 标 。 

解决 问题 之 前 ， 我 们 先 来 分 析 一 下 问题 产生 的 原因 。 既 然 Kylin 支持 Count Distinct 聚合 函 
数 ， 而 且 Mondrian 配置 Schema 时 也 支持 Count Distinct 的 指标 聚合 方式 ， 那 为 什么 还 会 产生 这 
个 原因 呢 ? 

我 们 从 kylin-mondrian-interaction 项 目 中 可 以 看 到 对 Mondrian 打 了 Kylin-dialect 的 补丁 ， 完 
整 代码 内 容 如 下 : 
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allowsCountDistinct(0) 函 数 被 设置 成 了 return false。kylin-mondrian-interaction 项 目 通过 这 种 方 
式 避 免 了 Mondrian 计算 维度 大 小 的 时 候 使 用 count disctinct， 但 是 使 得 Mondrian 计算 count 
distinct 指标 的 时 候 出 现 问题 : select count(distinct x) from tablename 这 样 的 语句 会 被 翻译 成 select 
count(*) from (select distinct x from tablename)， 从 上 面 的 错误 日 志 中 应 该 可 以 看 出 这 个 问题 ， 而 
Kylin 又 不 能 很 好 地 执行 后 者 。 

我 们 通过 查看 Mondrian 中 的 源码 ， 找 到 类 mondrian.spiimpl.SqlStatisticsProvider 中 的 方法 : 
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注意 到 只 有 dialect.allowsCountDistinct0 为 true 时 才 会 用 count distinct 来 计算 维度 表 大 小 。 
我 们 只 要 将 Kylin dialect 的 allowsCountDistinct) 设置 为 те, ЮМ 
generateColumnCardinalitySql 添加 一 个 判断 条 件 ， 即 针对 Kylin 特殊 处 理 。 

源 代码 mondrian.spiimpl.SqlStatisticsProvider 的 未 修改 之 前 为 : 
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对 源码 修改 完 后 要 重新 编译 打包 ， 然 后 替换 баки 安装 路 径 /software/saiku- 
server/tomcat/webapps/saiku/WEB-INF/lib/ 下 面 的 Jar 包 mondrian-4.4-lagunitas-SNAPSHOT-with- 
kylin-dialect.jar， 最 后 重启 Saiku 服务 : 


最 后 我 们 来 进行 测试 ， 验 证 问题 是 否 得 到 解决 ， 如 图 18-55、 图 18-56 所 示 。 
= ооөөо 


x | йт) х | + | 








myproject_pvuv_cube 


指标 2016-06-30 


| het a) 2016-07-02 
v myproject_pvuv_cube 2016-07-18 


2016-07-19 
ий 


FactDim 





图 18-55 
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re 
= © ө ө © 
Ноте 管理 控制 台 尚未 保存 (3) 
эшек 多 = B > ， в = әп а = а 
myproject_pvuv_cube ' 指标 ` 
时 间 省 份 D 城市 ID 操作 系统 рй ий 
РУЙ z ” 
Ре ж y 2016-06-30 G03 90301 Mac OS 1 
ууй соз G0402 Android50 5 
+ myproject_pvuv_cube 20160702 605 90502 Mac OS 4 
Wi су 0 2007-18 соз Go302 macos 2 
а ш 2016-07-19 G04 90402 Mac OS 2 
维度 
FactDim 
时 间 行 Ар 
айю FactDim 
城市 ID 时 间 
RD 
操作 系统 noo 
G то 
操作 系统 
He i 
РА 18-56 


根据 上 面 维度 的 不 同 组 合 可 以 正常 地 查看 “UV 数 ”， 说 明 源 码 修改 后 编译 没有 问题 ， 非 常 
好 地 支持 Count Distinct 聚合 操作 。 

Saiku 中 同样 支持 下 钻 、 过 滤 、 排 序 、 导 出 数据 等 操作 ， 而 且 还 支持 用 户 管理 ， 包 括 创建 用 
户 、 赋 予 用 户 不 同 的 权限 〈 包 括 ROLE_USER 和 ROLE _ ADMIN) 。 比 如 创建 了 一 个 kylin 的 用 
户 ， 只 有 ROLE_USER 权限 ， 在 使 用 kylin 用 户 登录 后 ， 无 法 对 “管理 控制 台 ” 进 行 操作 ， 只 能 
进行 查询 ， 如 图 18-57 所 示 。 


Saiku-3.8.8 





图 18-57 


好 了 ，Mondrian、Saiku 和 Kylin 的 集成 ， 我 们 就 介绍 到 此 ， 可 能 说 的 有 点 多 了 ， 目 的 只 是 
让 朋友 们 更 好 地 使 用 开源 产品 去 实现 一 些 功能 。 
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1 8 ‚© 通过 Apache Zepplin 访问 Kylin 


Apache Zeppelin 是 一 个 开源 的 数据 分 析 平 台 ， 为 Apache 顶级 项 目 ， 后 端 以 插件 形式 支持 多 
种 数据 处 理 引擎 ， 如 Spark. Flink, Hive 等 ， 同 时 提供 了 notebook 式 的 UI 进行 可 视 化 相关 的 操 
作 。Kylin 对 应 开发 了 自己 的 Zeppelin 模块 ， 现 已 经 合并 到 Zeppelin 主 分 支 中 ， 对 应 在 Zeppelin 
0.5.6 及 后 续 版 本 中 都 可 以 对 接 使 用 Kylin， 通 过 Zeppelin 访问 Kylin 的 数据 。 对 于 Apache 
Zeppelin 更 多 的 架构 和 可 以 访问 官网 (zeppelin.apache.org) 。 

本 次 我 们 使 用 最 新 的 zeppelin-0.6.0 稳定 版 本 的 二 进 制 包 ， 这 里 简单 介绍 一 下 安装 和 启动 ， 
配置 使 用 默认 即 可 ， 前 提要 保证 端口 号 不 冲突 。 

Zepplin 安装 和 启动 过 程 非常 简单 ， 如 下 : 


(1) 对 于 下 载 好 的 安装 包 zeppelin-0.6.0-bin-alltgz 解压 缩 





tar -zxvf zeppelin-0.6.0-bin-all.tgz 

(2) 启动 

zeppelin-0.6.0-bin-all/bin/zeppelin-daemon.sh start 

Zepplin 启动 后 ， 可 以 通过 前 端 页 面 进行 访问 ， 默 认 端 口号 为 8080， 其 主页 面 如 图 18-58 所 





Г Zeppelin Notebook - jocis anonymous ~ 
About Zeppelin 
Welcome to Zeppelin! interpreter 
Credential 
Zeppelin is web-based notebook that enables interactive data analytics. Configuration 


You can make beautiful data-driven, Interactive, collaborative document with SQL, code and even тоге! 
Notebook с Help 


Get started with Zeppelin documentation 





Community 


Please feel free to help us to improve Zeppelin. 
Any contribution are welcome! 
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为 了 访问 Kylin， 需 要 配置 Interpreter。 单 击 图 18-58 主页 面 右 上 角 的 anonymous, M FAE 
中 选择 Interpreter， 从 “Interpreters” 的 页 面 中 查找 到 配置 Kylin 的 位 置 ， 如 图 18-59 所 示 。 
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kylin %kylin #ейй | C restart || x remove 
Option 
ed Interpreter for note 
Connect to existing process 

Properties 

name value 

kylin api password KYLIN 

kylin.api url http://<host>:<port>/kylin/api/query 

kylin.api.user ADMIN 

kylin.query.ispartial true 

kylin.query.limit 5000 

kylin.query.offset 0 

kylin.query.project default 


Eg 18-59 


单 击 图 18-59 右上 角 的 edit 进行 编辑 ， 编 辑 完成 并 保存 后 的 结果 如 图 18-60 所 示 。 








kylin %kylin g edit C restart || x remove 
Option 
ed ~ Interpreter for note 
Connect to existing process 

Properties 

name value 

kylin.api.password KYLIN 

kylin apiurl http://192 168 1.128:-7070/kylin/ap/query 

kylin.api.user ADMIN 

kylin.query.ispartial true 

kylin.query limit 5000 

kylin.query.offset 0 

kylin.query.project learn_kylin 


图 18-60 
既然 Kylin 的 Interpreter 已 经 配置 好 了 ， 下 面 我 们 开始 查询 吧 。 
首先 需要 创建 一 个 工作 的 环境 “Notebook ”， 我 们 在 Zeppelin 主页 面 左 上 角 ， 单 击 
Notebook， 从 下 拉 框 中 选择 Create new note， 在 弹出 的 窗口 中 配置 名 称 并 单 击 Create Note 即 可 完 
成 创建 过 程 ， 并 自动 切换 到 新 创建 的 “Notebook” 工 作 页 面 ， 如 图 18-61 所 示 。 
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@ Zeppelin Notebook - anonymous ~ 


Kylin ов 2+8 0 © Em O Ө defaut v 
y 


DY D 1: 





图 18-61 


然后 在 该 Notebook 中 输入 SQL， 并 单 击 后 面 的 READY 按钮 执行 ， 需 要 注意 的 是 针对 
Kylin 的 查询 需要 在 SQL 前 面 加 上 %kylin， 这 样 Zeppelin 后 端 才 知道 对 应 用 哪个 Interpreter 去 处 
理 查询 ， 如 图 18-62 所 示 。 

SQL 语句 为 : 


%kylin select part dt, sum(Price) as total selled, count (distinct 
seller id) as sellers from kylin sales group by part dt order by part dt 











Kylin >з Шела 可 ° ыов ел. 
> чн. дзее, «няз all Jers fron заз group by Pero order ty pert sit 

тота. вашар seLtens 
559037 回 
этолм? т 

20120108 отат ч 

2012-01-04 Т7 о 

20120126 732.9007 в 

20120106 2963882 ° 

2012.01.08 ч 

202.0 09 1a 











图 18-62 


Zeppelin 提供 了 多 种 图 形 化 模型 来 展示 数据 ， 也 可 以 对 维度 和 度量 的 字段 进行 选择 ， 如 图 
18-63 所 示 。 





Kylin b X m 2 0 + 0° š 


Nkylin select part_dt, sum(price) 





total_selled, count(distinct seller_id) as sellers from kylin_sales group by part_dt order Бу part_dt 





т ы = 1 

PART_DT TOTAL_SELLED SELLERS 
2012-01-01 466.9037 12 
2012-01-02 970.2347 17 
onto nt na аят ляла sa 





图 18-63 


在 图 18-63 中 标注 的 区 域 ， 朋 友 们 可 以 选择 不 同 的 图 形 来 展示 数据 ， 如 图 18-64 和 图 18-65 
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所 示 。 





Kylin эх 





«Јејаја) [0] [o зой == 


yl select part ot, sun(price) as total salleq, cownt(oistinct seller £4) as sellers зов Aylin sales group by рагу et ərder ву рагі ас. 





ajk o eee a- sm- 


Фонї Osackea @TOTAL_sELLED 


1292907, 


1200| 
1 
20129127 20120130 





: 
З 
: 
ШИ L 





图 18-64 


Kylin ekea 0) ° 


1 


看 一 


эзи эш эн, эи) a көм. геше, «енше. xie al 8 sellers fran Obie oa mr partet е by и 
epee] [EF] sawas 


@suoso Озат OEpanses rom sELtso 


000 
amano 20120102 20120108 20129107 20120100 2029101 20120113 20020116 20120117 20120740 20129121 20120123 20120125 2020127 20120129 2012013 
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关于 Zeppelin 更 多 的 特性 请 查看 官网 。 


8.9 通过 Kylin 的 “Insight” 查 询 


前 面 我 已 经 和 朋友 们 说 过 ，Kylin 自身 也 集成 了 简单 的 可 视 化 数据 分 析 。 下 面 我 们 就 一 起 来 
下 这 方面 的 内 容 。Kylin 的 Web UI 提供 了 “Insight” 窗 口 提 供 SQL 查询 服务 ， 如 图 18-66 


所 示 。 
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Kylin nsight Model Monitor System m Help ~ 
日 四 







ADMIN= 









Tables Мем Query Saved Queries — Query History 
28! 
8 DEFAULT 


Tips: Ctri+Shift+Space ог Alt+Space(Windows). Command+Option+Space(Mac) to Ist tables/columns In query 


box 
Project: LIMIT 50000 











图 18-66 


我 们 可 以 在 “New Query” 中 输入 SQL 进行 查询 ， 比 如 执行 SQL: 





然后 单 击 Submit 提交 查询 SQL 给 Kylin， 查 询 结果 如 图 18-67 所 示 。 





select partot, 
mlprice) өз tetel_selled, 


соот 
tron кул, sales 
group by раге йт orcer by раге, т 


уст selier ia) as sellers 





w“... 


Tips CShevSpace or AlrSpacetfmndoessh Commana-Opton-SpaceóMac) to ist utiest enum in query bos 





ҮҮТ! Er . 
Ону гєр = Start Tina 2016-0% 05002134 PST Олсо 0 1⁄4 Д 15559 
suy: ШШ Propet элу Cubes: куйп зава иле 
поно Wvs Орой / 
РААТ ОТ ~ TOTAL SELx. SELLERS 
20120501 46907 12 z 


20120102 970247 1 
20120003 917418 м 








18-67 
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E=] 我 们 这 里 只 构建 3 天 的 Cube 数据 ， 如 图 18-68 所 示 。 | 














Results 

т: an 

озму aiig v Start Тате 2016-06-05 00:21:34 PST w БШШ 5 
Status: EJ Project: езт куш Cubes: кую _єзез сле 


fens o ee 


PART DT ~ TOTAL SELLY, SELLERS ~ 








2012-01-02 9702347 17 
图 18-68 
我 们 看 到 上 面 的 数据 展示 区 域 的 最 右边 有 一 个 Visualization 图 标 ， 单 击 此 图 标 就 以 可 视 化 形 
式 展 示 数 据 了 。 


单 击 Visualization 图 标 后 ， 在 弹出 的 界面 中 可 以 通过 配置 来 显示 可 视 化 方式 ， 如 图 18-69 所 
示 。 





Results 
rz: элш [Ай 
Query String v 8002134 PST Duration: 0 16 EIEES sss 
Status: Project: езт кую Cubes: кув заз сше 
Results (3) шош aep / 
Ф20120101 ©20120102 @20120103 
Graph Type [Bar Chat ， kas 
= 
Dimensions wd 
PART_DT . “оо 
sl 
Metrics | 
°% 
TOTAL_SELLED ` 20120101 20120102 20120103 
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比如 我 们 将 “Graph Туре” 2% “Ваг Chart”， 即 以 柱 形 图 展示 数据 ， 将 “Dimensions” 维 
度 设置 “PART_DT”，“Metrics” 度 量 设 为 “TOTAL SELLED”， 最 终 的 可 视 化 效果 如 图 
18-69 所 示 。 

再 来 看 一 下 同样 的 查询 结果 ， 使 用 “Graph Туре” X “Line Chart” 和 “Pie Chart” 可 视 化 结 
果 如 图 18-70、 图 18-71 所 示 。 
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Query String v Start Time: 2016-06-05 00:47.51 PST Duration: 0155 ШЕЕ ü 
Status: Project: кэт кую Cubes: кую заз сше 
Results (3) шс 包 Erpor 
Graj [ше cnan "| 
ph Type [Line Chan * } Sa 
Dimensions ын 
PART_OT 
600| 
Metrics “| 
TOTAL_SELLED 
200| 
° 
amna 20120101 20120101 20120103 20120102 20120102 2012-01-02 20120102 20120199 





图 18-70 





图 18-71 


到 此 ， 绝 大 部 分 与 Kylin 交互 的 可 视 化 工具 都 已 经 详细 介绍 完了 ， 和 希望 朋友 们 挑选 适合 自己 


项 目 需要 的 可 视 化 工具 ， 并 进行 定制 开发 ， 做 到 数据 全 方面 展示 ， 这 样 才 可 以 让 分 析 更 加 便捷 ， 
更 好 地 从 数据 中 获取 知识 。 
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Kylin 从 1.5 版 本 开始 ， 引 入 了 Streaming Table， 目 的 是 为 了 减低 OLAP 分 析 的 延 时 ， 截 至 
目前 (版 本 为 1.5.3) 还 处 于 实验 性 阶段 。 

Streaming Table 周期 性 地 从 Kafka 中 读 取 数据 ， 根 据 Model 和 Cube 的 定义 ， 将 计算 好 的 数 
据 写 入 HBase， 以 供 查询 。 

本 章 将 指导 朋友 们 如 何 从 Streaming 中 创建 和 构建 准 实时 的 Cube。 

准备 工作 : 


© RARR Kylin 1.52 以 及 以 后 版 本 (之 前 版 本 有 一 些 问题 ， 建 议 升级 Куп 版 本 ) 。 
© 部署 和 运行 正常 的 Kafka 环境 (如 果 你 使 用 СОН 集成 大 数据 平台 ， 可 以 使 用 自 带 的 
Kafka， 否 则 需要 自己 独立 搭建 Кака 集群 环境 ) 。 


针对 下 面 演示 的 案例 ， 我 们 在 Linux 的 命令 最 后 面 加 上 了 反 斜 杠 (\〉， 因 为 命令 比较 
长 ， 一 行 显示 不 完整 。Linux 的 Shell 终端 使 用 反 斜 杠 可 以 将 一 行 长 命令 分 隔 为 几 行 ， 可 以 正 
常 运行 。 


构建 准 实时 Cube 具体 操作 步骤 说 明 如 下 。 
1. 步骤 一 : 创建 Kafka 的 topic 


执行 Кака 提供 的 如 下 命令 创建 topic 为 kylin_ demo: 
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返回 结果 : 





2. 步骤 二 : 上 传 数据 


Kylin 提供 了 一 个 工具 类 ， 用 来 将 数据 put 到 Kafka 的 topic 中 ， 执 行 如 下 命令 : 





Kylin 自 带 的 这 个 Producer 会 每 隔 两 秒 钟 发 送 一 条 数据 ， 上 面 命令 会 一 直 运 行 ， 朋 友 在 测试 
过 程 中 不 要 终止 上 面 的 命令 (不 要 执行 CTRLHC) , UM Streaming 就 停止 了 。 如 果 你 需要 的 
话 ， 也 可 以 将 上 面 的 命令 放 到 Linux 后 台 执行 。 

下 面 我 们 抽 点 时 间 来 看 一 下 Kylin 自 带 的 KafkaSampleProducer 大 概 内 容 。 

KafkaSampleProducerjava 类 位 于 Kylin 源码 的 目录 路 径 为 : 





(1) 此 类 有 三 个 参数 ， 前 两 个 参数 是 必 选 的 ， 后 一 个 是 可 选 的 : 





(2) Kafka 写 入 topic 的 部 分 字段 的 值 是 从 List 列表 中 随机 选取 的 : 
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(3) 循环 执行 每 隔 2 秒 〈 代 码 设 为 2 Ж) 发 送 一 条 数据 : 


3. 步骤 三 : 通过 Kafka 的 kafka-console-consumersh 检查 topic 中 的 数据 








第 19 2 使 用 Streaming Table 构建 


显示 部 分 内 容 为 : 





4. 步骤 四 : E Kylin 的 Web UI 界面 ,使 用 Streaming 方式 定义 表 
使 用 Streaming 方式 定义 表 ， 如 图 19-1 所 示 。 


Models 2. 选择 数据 源 页 签 


四 No table selected 
Tables Oo :eesteaning Table 
Select your table 


Е KYUN_FLAT_D8 





图 19-1 
根据 图 19-1 所 示 ， 执 行 如 下 操作 : 


(1) 首先 选择 工程 项 目 。 
(2) 切换 到 “Data Source”。 
(3) 单 击 Add Streaming Table 加 载 数据 。 


执行 上 面 的 第 3 步 “Add Streaming Table” 操 作 后 ， 弹 出 如 图 19-2 所 示 的 页 面 。 
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Streaming Table And Cluster Info 


Need to Input streaming source record here. will detect 
the source schema and create a table schema for 
streaming 


1 





图 19-2 


我 们 从 Kafka 的 kafka-console-consumer 输出 结果 中 取 一 条 数据 ， 插 入 上 面 的 对 话 框 中 ， 如 
图 19-3 所 示 。 


Streaming Table And Cluster Info 


Need to Input streaming source record here, will detect 
the source schema and create a table schema for 
streaming 


46.43003238459714, "categor 
me":1470023330979, "деуі 
:8,"currescy":"USD","country": 





图 19-3 


然后 单 击 双 箭 头 按钮 ，Kylin 解析 出 JSON 格式 的 数据 中 包含 的 字段 及 其 格式 ， 另 外 ， 还 会 
自动 添加 年 、 季 度 、 月 、 周 等 时 间 上 的 衍生 维度 ， 可 以 根据 实际 需要 保留 或 舍弃 ， 结 果 显 示 如 
图 19-4 所 示 。 
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Streaning Table And Cluster Info x 
Need to input streaming source record here, wil detect 1. Choose 'imestamp' type cotumn for streaming tatie 
the source senema and create a tabte schema or 2 By defaut, system wa choose Defaut as database, you can 
streaming specify database we this database tadi 


3. denved ime dimensions are сак шей trom timestamp fieis to 
һер analysis against diferent time granutartes 





JSON 
et 403238459714, ~ Tabie Name" 
"er 一 
Column Column Type Comment 
@ amom dema ` 
# у “ ` 


Z category — 
Z we vachar256) = 
Ф ситету мкм) » 
# союу vaxhaQt6) = 
# уси san d . > 
# quaner san | ase | z 
Ф тотем шш ‚ zz 
Ф жези але ‚ zzr=r== 
# азу ап ds "| z=r 
Ф nosat Dimsum „ CEED 
Ф mesan mesum „ CEOD 
图 19-4 


从 图 19-4 中 可 以 看 出 以 下 几 点 : 


© 目前 提供 的 Streaming Table, £ Kafka 中 的 数据 必须 是 JSON 格式 ， 并 且 必 须 包 含 一 个 
timestamp 类 型 的 字段 ， 用 作 时 间 序 列 。 

e 默认 情况 下 ， 系 统 使 用 'Default 数据库 ， 当 然 你 也 可 以 指定 数据 库 ， 比 
如 'database.table'。 这 里 的 逻辑 表 名 会 被 用 在 后 续 的 SQL 查询 中 。 

ө ”可 以 看 到 图 19-4 的 最 下 面 多 了 7 个 “derived time dimensions” 的 字段 ， 这 个 是 从 上 面 
的 timestamp 字段 (order time) 计算 出 来 的 ， 以 满足 对 不 同时 间 粒 度 的 分 析 统计 。 

ө ”这 里 列 出 的 字段 可 以 根据 需求 勾 选 或 取消 勾 选 ， 如 果 你 不 希望 某 个 字段 构建 到 Cube 
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中 ， 则 取消 义 选 该 字段 。 


我 们 将 order time 字段 也 勾 选 上 ， 这 样 就 包含 了 所 有 的 字段 。 同 时 输入 Table Name 为 
“STREAMING_SALES_TABLE”， 然 后 单 击 Next 进入 下 一 步 ， 如 图 19-5 所 示 。 








图 19-5 


这 部 分 主要 为 Kafka 的 集群 信息 配置 ， 有 三 块 内 容 ， 包 括 “Kafka Setting”, “Advanced 
Setting” 和 “Parser Setting”， 单 击 每 块 后 面 的 箭头 显示 具体 配置 内 容 。 下 面 我 们 分 别 进行 介 
HH: 


(1) Kafka Setting 
对 于 Topic， 我 们 输入 上 面 创建 好 的 topic 名 称 “kylin_demo”， 如 图 19-6 所 示 。 








图 19-6 


作为 演示 ， 我 们 的 Kafka 为 单机 环境 ， 设 置 内 容 如 图 19-6 所 示 ， 填 好 后 单 击 Save 保存 。 如 
果 Kafka 为 集群 环境 ， 那 么 需要 填 上 所 有 的 Broker; 如 果 有 多 个 集群 ， 也 可 以 单 击 Cluster 进行 
添加 。 


(2) Advanced Setting 


如 图 19-7 所 示 ，“Timeout” 和 “Buffer Size” 都 是 用 来 设置 连接 Kafka 的 配置 参数 。 
“Margin” 用 来 设置 消息 时 间 窗 口 范围 大 小 ，Kylin 将 从 Kafka 获取 数据 ， 默 认 是 5 分 钟 ， 当 然 
你 可 以 根据 实际 需要 进行 修改 。 
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Advanced Setting 


60000 
Butter Size ss 
ma, 300000 





图 19-7 
(3) Parser Setting 


这 部 分 内 容 为 JSON 数据 格式 的 解析 器 ， 如 果 你 有 定制 的 JSON 格式 解析 器 ， 可 以 配置 成 自 
己 的 解析 器 。 如 图 19-8 所 示 。 


Parser Setting 


озине" Gg apache kyan source kafka Тепес зог 


Parser Timestamp Column ` еби рте. 


Parser Properties ` tsCoiNamesorder_time 





图 19-8 


配置 完成 后 ， 单 击 Submit， 然 后 我 们 就 可 以 在 “Tables ”下面 看 到 刚才 创建 的 Streaming 
Table 了 ， 如 图 19-9 所 示 。 


куйп пэн Model Мои узет 
пе 





Models Data Source 


Table Schema :STREAMING_SALES_TABLE 





Tables пиг Columns Extend information Streaming Cluster 


Columns 
8 DEFARI 


| HI STREAMING_SALE S_TABLE Г Name $ 





sus Data Type $ 
1 AMOUNT decimaw19.4) 
2 aty керег 
з ORDER_TIME timestamp 
4 CATEGORY varchar(256) 
ОЕМСЕ varchar(256) 
6 CURRENCY varchar(256) 








19-9 
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5. 步骤 五 : 创建 Data Model 


前 一 步骤 我 们 已 经 将 Streaming Table 创建 好 了 ， 接 下 来 开始 创建 Model。 有 几 点 需要 提前 说 


明 一 下 : 


由 于 在 之 前 章节 “Apache Kylin 基础 部 分 之 多 维 分 析 的 Cube 创建 实战 ”中 ， 我 们 已 经 详细 


对 于 Streaming Cube， 不 支持 和 Lookup 表 进 行 Join 操作 。 我 们 创建 Model 时 ， 只 能 选 
择 “DEFAULT.STREAMING _SALES_TABLE” 作 为 事实 表 ， 没 有 Lookup Ж. 
我 们 选择 “MINUTE_ START” 作为 Cube 的 分 区 字段 ， 因 此 我 们 是 基于 分 钟 级 别 进行 


增 量 构建 Cube 的 。 


介绍 了 如 何 创 建 Cube， 所 以 这 里 我 们 不 再 一 步 一 步 操作 了 。 


创建 Model 时 ， 我 们 选择 8 个 维度 和 2 个 度量 字段 ， 部 分 截图 如 下 。 





选择 事实 表 如 图 19-10 所 示 。 





Model Designer 


Model Info 


Fact Table * 


+ Add Lookup Table 


选择 维度 如 图 19-11 所 示 。 





Moget Info Data Model 


Dimensions 
ID Table Name Columns 


1 DEFAULT STREAMI  ORDER_TME 


NG_SALES_TABLE OUR_START 


选择 度量 如 图 19-12 所 示 。 
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Data Model 


DEFAULT STREAMING_SALES_TABLE 


图 19-10 


Dimensions 


CATEGORY Х DEVICE Х CURRENCY 


DAY_START 


图 19-11 


COUNTRY 





MINUTE_START 
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Model Designer 


Model Info Data Model Dimensions Measures 


Select your measures 


AMOUNT ОтҮ 








图 19-12 
最 后 保存 Model， 则 我 们 创建 的 Model 如 图 19-13 所 示 。 
日 四 
Models Data Source 


+ New- 


Models 


Streaming_Sales_Model 





6. 步骤 六 : 创建 Cube 
Streaming Cube 和 普通 的 Cube 几乎 一 样 ， 但 是 有 几 点 需要 说 明 一 下 : 


© 建议 使 用 “minute_start”、“hour start” 或 其 他 粒度 ， 根 据 你 检测 数据 的 时 间 粒 度 。 
建议 不 要 使 用 “order_time” 作 为 维度 。 

© fE “Refresh Setting” 步 又 中 ， 创 建 更 多 的 Merge 范围 ， 比 如 0.5 小 时 、4 小 时 、1 天 和 
7 天 。 这 样 可 以 有 效 地 控制 segment 的 个 数 。 

© {Е “Advanced Setting” 步 又 的 “Rowkeys” 部 分 ， 通 过 拖拉 将 “minute_start” 位 于 第 一 
个 位 置 。 因 为 对 于 Streaming 的 查询 ， 时 间作 为 条 件 总 是 会 出 现 的 ， 将 “minute_start” 
放 到 Rowkey 的 首位 ， 则 减少 扫描 HBase 数据 的 范围 。 


创建 Cube 过 程 中 的 部 分 截图 如 下 。 
维度 选择 如 图 19-14 所 示 。 
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1 





IO Name Table Name 


1 DEFAULT STREAMING SALES TABLECATE ”DEFAULT STREAMING_SALE 
GoRY S_TABLE 


2 DEFAULT STREAMING_SALES_TABLE CUR DEFAULT STREAMING_SALE 
RENCY S_TABLE 


3 DEFAULT STREAMING_SALES_TABLECOU DEFAULT STREAMING_SALE 
NTRY S_TABLE 


4 DEFAULT STREAMING_SALES_TABLE MINU 
TE_START 











Cube Into 
Name Expression Parameters 
„COUNT. COUNT 
Value 1. Type constant 
TOTAL АМТ sum 
- узше AMOUNT Туре column 
ТОТА. ОТҮ зом 


Value ОТҮ. Туре column 





图 19-15 


配置 Merge 规则 如 图 19-16 所 示 。 


Cube Info Dimensions Measures 


Auto Merge Thresholds © 





Column 


Column 


Retur Type 


эрен 


ecmaM19 4) 


а 
Actions 
rs BO 
ory 
oe 四 日 
жу 
cow 0 
RY 
ww 0 
ELSTA 
RT 
Acuons 








asya а 
z Гл -B 
os =] [mm -B 
< =] [s =) B 
soys -B 
m= 
Retention Treshold © 3 
Partition start Date 
图 19-16 
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Rowkeys 的 顺序 调整 如 图 19-17 所 示 。 





Rowkeys Ө 
10 Column Encoding Length Shard By 
о MINUTE_START éa s, 0 в 
Ө слтесовү éa p 0 日 
Ө currency Фа » o B 
О омж Фа м о g 





图 19-17 


根据 图 19-17 信息 ， 可 以 看 到 我 们 已 经 将 MINUTE_START 放 到 了 Rowkeys 的 第 一 位 了 。 
查看 Cube 信息 如 图 19-18 所 示 。 


Cube Designer 


Cube Into Dimensions Measures Refresh Setting Advanced Seting Configuration Overwrtes — Overvew 


Моде Ма Sireaming_Sales_Model 
Е Description 

me 

Cube Мэт Sweaming_Sales_Cube 

. 


Fact Tabl DEFAULT STREAMING_SALE 
. S_TABLE 


° 


Lookup T 
able 


Dimensio 
ns 


> 








Measures 3 
图 19-18 
最 后 单 击 Save 保存 创建 的 Cube。 


т. 步骤 七 : 手工 构建 Streaming Cube 


Streaming Cube 构建 不 同 于 一 般 的 Cube《〈 比 如 使 用 Hive 作为 数据 源 ) ， 目 前 对 于 Streaming 
的 Cube， 暂 时 不 支持 在 Web UI 上 面 构建 Cube， 需 要 通过 手动 来 执行 。 
为 了 触发 Streaming Cube 的 构建 ， 执 行 下 面 的 一 个 micro-batch 命令 : 
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命令 执行 完 返回 结果 为 : 


这 样 Streaming Cube 的 构建 就 被 触发 了 ， 同 时 会 在 SKYLIN_HOME/logs/ 目 录 下 面 生成 一 个 
单独 的 日 志文 件 ， 比 如 : 


对 于 上 面 streaming_build.sh 脚本 的 参数 ， 第 一 个 为 Cube 的 名 称 ， 第 二 个 为 margin 
(INTERVAL) 时 间 ， 第 三 个 为 delay 时 间 。 
构建 Cube 需要 花 一 段 时 间 ， 并 且 绝 大 部 分 时 间 都 花 在 等 待 消息 上 数据 来 源 ) ， 大 概 7~10 
分 钟 ，Build 就 完成 了 。 
我 们 再 次 登录 到 Kylin 的 Web UI， 刷 新 页 面 ， 然 后 单 击 我 们 创建 的 Streaming Cube， 这 时 我 
们 可 以 看 到 “Source Records” 显 示 有 值 了 (通常 数值 为 150， 因 为 Kafka 每 分 钟 产生 30 条 记 
录 ， 我 们 构建 时 设置 为 5 分钟) ， 如 图 19-19 所 示 。 










LastBulld Times Owner Create Time $ Actions Streaming 
. 

pmv_cube 390KB в 20160725233 ADMI 2016072501 Аз» awae CD 
825 PST N 406 PST 

Op cude соп MOSS 000s о ADi 20160730204 amas дю” CD 

e N 1:41 PST 
2016-0801015 АРЫІ 20160601001 Аз» awae CED 
023 PST N 105 PST 





19-19 


我 们 单 击 Streaming Cube 的 HBase 查看 详细 信息 ， 如 图 19-20 所 示 。 


+ Эше ss than 1 MB 
+ Start Time: 2016-08-01 09:40:00 
+ Ела Time: 2016-08-01 09:45:00 


Total Size: less this 1 WE 
Total Musber: 1 





19-20 
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可 以 看 到 生成 了 一 张 HBase 表 ， 并 且 创 建 了 一 个 segment， 开 始 和 结束 时 间 正 好 间隔 5 分 
钟 。 

估计 到 目前 为 止 ， 朋友 应 该 也 发 现 了 一 个 问题 ， 既然 Cube 都 已 经 构建 好 了 ， 为 什么 Cube 
状态 还 是 DISABLED? 

其 实 Streaming Cube 执行 micro-batch 完成 后 ， 并 不 会 自动 使 Cube 生效 ， 而 是 需要 自己 手工 
单 击 Action 中 的 Enable 使 用 Cube 生效 ， 能 够 提供 SQL 查询 。 我 们 对 Cube 执行 Enable 后 ， 结 
果 如 图 19-21 所 示 。 


© Streaming_Sae 000KB 1% 2016-08-01015 ADMI 2016-06-01001 atone мю COD 





s_Cube 023PST N 1:05 PST 


图 19-21 
下 面 就 可 以 通过 “Insight” 执 行 SQL 查询 了 ， 如 图 19-22 所 示 。 
SQL 语句 为 (统计 的 粒度 是 每 分 钟 ): 


select minute заг, count(*), sum(amount), sum(qty) from streaming 
sales table groupby minute start; 





Мен Ouery Зане Oo Query Meeey 
Д8 select misste start, Cont(*), sun(onount), sum(qty) from streaming saies_table growp by эйтте „йет 
Prosser кл UM 50000 
iv x x n 
[Overy sarng an Te 431 x Сне Ss 
Status: Project: туре oww Cubes: Sreaming бза Oude 
езы 15 加 veuanzason @Езрот 2 
MNUTE_START ~ EXPRS1 ~ EXPRS2 ExpRSY 
2 r 14 
168 
x 140 
» us 











图 19-22 
8. 步骤 八 : 自动 构建 Streaming Cube 
如 果 手 工 构建 Streaming Cube 成 功 ， 并 且 可 以 正常 查询 Cube 数据 了 ， 那 么 接 下 来 我 们 就 要 
设置 调度 来 定时 自动 执行 构建 Streaming Cube 的 操作 。 本 案例 中 ， 我 们 定义 间隔 时 间 
(INTERVAL) 为 5 分 钟 ， 即 我 们 需要 每 隔 5 分 钟 来 调度 构建 Cube 过 程 。 
我 们 可 以 通过 Linux 的 crontab 命令 很 容易 实现 定时 调度 ， 当 然 你 也 可 以 使 用 其 他 的 调度 系统 。 
我 们 可 以 在 Kylin 的 用 户 下 面 ， 通 过 crontab 来 添加 定时 任务 ， 示 例如 下 : 
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执行 crontab -e 命令 ， 写 入 内 容 为 : 


保存 后 ，Linux 系统 会 每 隔 5 分 钟 自动 执行 命令 : 


当 Cube Segments 慢 慢 积累 时 ，Kylin 会 自动 根据 设置 的 规则 执行 Job 来 合并 Segments， 这 
个 Merge Segments 的 Job 为 MapReduce 作业 ， 我 们 可 以 从 Kylin 的 Web 页 面 “Monitor” 中 查看 。 


9. 步骤 九 : 关于 Streaming Cubing 的 补充 说 明 


(1) 如 果 一 个 Merge 作业 失败 了 ， 那 么 auto-merge 操作 就 会 停止。 你 需要 去 检查 并 修复 失 
败 的 问题 ， 并 且 重 新 执行 Job， 使 auto-merge 恢复 。 

(2) 如 果 系 统 出 现 了 问题 导致 在 Cube 中 出 现 segment HBR (segment gaps) 。 例 如 ， 我 们 
有 一 个 segment А 时 间 范 围 为 [1:00, 1:05]; 但 是 在 1:06 时 候 ， 系 统 不 可 用 了 ， 直 到 1:12 才 恢 复 ， 
接着 我 们 下 一 个 segment B 的 时 间 范 围 为 [1:10, 1:15]; 因此 这 里 就 缺少 一 个 segment，segment 的 
时 间 间 隙 为 [1:05, 1:10]， 即 这 个 时 间 段 没有 segment 生成 ， 毕 竟 Linux 的 crontab 不 会 检查 执行 的 
日 志 并 重新 执行 。 

对 于 这 种 情况 ，Kylin 提供 了 一 个 Shell 脚本 ， 用 来 检查 和 修复 这 个 segment gaps， 这 需要 你 

设置 一 个 不 频繁 的 调度 时 间 ， 比 如 每 隔 两 个 小 时 检查 并 修复 一 次 
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本 章 我 们 来 深入 研究 Kylin 中 的 核心 内 容 ， 构 建 Cube 的 算法 的 演进 。 

我 们 都 知道 Kylin 是 一 个 开源 的 分 布 式 分 析 引 擎 ， 提 供 Hadoop 之 上 的 SQL 查询 接口 及 多 维 
分 析 СОГАР) 能 力 以 支持 超大 规模 数据 。 它 能 在 亚 秒 内 查询 巨大 的 Hive 表 。 在 Kylin 1.5 版 本 
之 前 构建 Cube 的 算法 只 有 Layered Cubing 〈 逐 层 算法 ) ， 基 本 思想 是 逐 层 由 底 向 上 计算 ， 直 到 
把 所 有 组 合算 完 的 过 程 ， 但 是 这 种 算法 存在 一 定 的 局 限 性 。 后 来 Kylin 从 1.5 版 本 开始 提供 了 


Fast Cubing 算法 ， 用 来 加 快 Cube 的 构建 效率 和 减少 总 的 IO 大 小 。 














快速 数据 立方 算法 概述 


Fast Cubing， 也 称快 速 数据 立方 算法 ， 是 一 个 新 的 Cube 算法 。 我 们 知道 ，Cube 的 思想 是 
用 空间 换 时 间 ， 通过 预先 的 计算 ， 把 索引 及 结果 存储 起 来 ， 以 换取 查询 时 候 的 高 性 能 。 

我 们 先 介绍 Layered Cubing 的 核心 思想 和 构建 Cube 过 程 。 

如 图 20-1 所 示 的 是 一 个 四 维 Cube， 有 维度 A. B. C. D. 


0-D Cuboid Жу 
会 MR ü 
1-D Cuboid fA 
t ы с ү 
MR = ><, i 
2-D Cuboid e€&— ps 
j Ac NAB BEX Bp ср 
4 ма £ 六 Е. АТ. 
3-0 Cuboid tX i ай ей У 
会 А,В,С “А,В,0, ACD B,CD 
MR x р 
4-D Cuboid {у 
会 A,B,C,D 
MR 


图 20-1 


这 个 四 维 Cube 需要 五 轮 的 MapReduce 来 完成 : 


第 一 轮 MR 的 输入 是 源 数据 ， 这 一 步 会 对 维度 列 的 值 进行 编码 ， 并 计算 ABCD 组 合 的 结 


基于 Apache Kylin 构建 大 数据 分 析 平 台 


果 。 接 下 来 的 MR 以 上 一 轮 的 输出 结果 为 输入 ， 向 上 聚合 计算 三 个 维度 的 组 合 : ABC. BCD, 
ABD 和 ACD; 依 此 类 推 ， 直 到 算出 所 有 的 维度 组 合 。 

Layered Cubing 算法 的 优势 是 每 一 轮 MR 以 上 一 轮 的 输出 为 结果 ， 这 样 可 以 减少 重复 计算 ; 
当 计算 到 后 半 程 的 时 候 ， 随 着 数据 的 减 小 ， 计 算 会 越 来 越 快 。 

Layered Cubing 算法 的 主要 优点 是 : 

算法 比较 简单 ， 即 Cube 聚合 的 过 程 就 是 把 要 聚合 掉 的 维度 从 key 中 减 掉 组 成 新 的 key 交 给 
MapReduce, ЕН MapReduce 框架 对 新 кеу 排序 和 再 聚合 ， 计 算 结果 写 到 HDFS。 这 个 算法 很 好 地 
利用 了 MapReduce 框架 。 得 益 于 Hadoop 中 MapReduce 的 成 熟 ， 此 算法 的 稳定 性 已 经 非常 高 。 

经 过 不 断 地 实践 ，Kylin 的 开发 团队 也 发 现 了 此 算法 的 局 限 : 

当 数 据 量 大 的 时 候 ，Hadoop 主要 利用 磁盘 做 排序 ， 数 据 在 Mapper 和 Reducer 之 间 还 需要 洗 
牌 Cshuffle) 。 在 计算 Cube 的 时 候 ， 集 群 的 IO 使 用 率 往往 很 高 ; 在 运行 一 些 大 的 任务 时 ， 瓶 颈 
会 出 现在 网 络 传输 和 磁盘 读 写 上 ， 而 CPU 和 内 存 的 使 用 率 比 较 低 。 

此 外 ， 因 为 需要 递交 N+1 次 MapReduce 任务 ， 每 次 递交 任务 ， 都 需要 检查 集群 是 否 有 可 用 
的 节点 能 和 否 满足 资源 要 求 ， 如 果 没 有 还 需 等 待 其 他 任务 释放 资源 ， 反 复 的 任务 递交 ， 给 Hadoop 
集群 带 来 额外 的 调度 开销 。 特 别 是 当 集群 比较 繁忙 的 时 候 ， 等 待 的 时 间 会 非常 长 ， 这 些 都 导致 了 
Cube 构建 的 时 间 比 较 长 。 

带 着 这 个 问题 Kylin 开发 团队 做 了 不 断 分 析 和 尝试 ， 结 合 了 若干 研究 者 的 论文 ， 于 是 有 了 开 
发 新 算法 的 设想 。 新 算法 的 核心 思想 是 清晰 简单 的 ， 就 是 最 大 化 利用 Mapper 端的 CPU 和 内 
存 ， 对 分 配 的 数据 块 ， 将 需要 的 组 合 全 都 做 计算 后 再 输出 给 Reducer; IH Reducer 再 做 一 次 合并 

(Merge) ， 从 而 计算 出 完整 数据 的 所 有 组 合 。 如 此 ， 经 过 一 轮 MapReduce 就 完成 了 以 前 需要 N 

轮 的 Cube 计算 。 如 图 20-2 所 示 是 此 算法 的 计算 过 程 。 


mapper mapper mapper 


[ it И: ] a 
4 + — 4 
Merge Sort 
(Shuffle) 


Final Cube 


reducer 








图 20-2 


在 Mapper 内 部 ， 也 可 以 有 一 些 优化 ， 图 20-3 所 示 是 一 个 典型 的 四 维 Cube 的 生成 树 。 
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图 20-3 


第 一 步 会 计算 Base Cuboid〈 所 有 维度 都 有 的 组 合 ) ， 再 基于 它 计 算 减 少 一 个 维度 的 组 合 。 
基于 parent 节点 计算 child 节点 ， 可 以 重用 之 前 的 计算 结果 ; 当 计算 child 节点 时 ， 需 要 parent 节 
点 的 值 尽 可 能 留 在 内 存 中 ; 如果 child 节点 还 有 child， 那 么 递归 向 下 ， 所 以 它 是 一 个 深度 优先 
遍历 。 当 有 一 个 节点 没有 child， 或 者 它 的 所 有 child 都 已 经 计算 完 ， 这 时 候 它 就 可 以 被 输出 ， 占 
用 的 内 存 就 可 以 释放 。 

如 果 内 存 够 的 话 ， 可 以 多 线程 并 行 向 下 聚合 。 如 此 可 以 最 大 限度 地 把 计算 发 生 在 Mapper 这 

- 端 ， 一 方面 减少 shuffle 的 数据 量 ， 另 一 方面 减少 Reducer 端的 计算 量 。 


20.2 快速 数据 立方 算法 优点 和 缺点 


讲 到 这 里 ， 我 们 来 总 结 一 下 Fast Cubing 的 优点 和 缺点 : 
Fast Cubing 的 优点 : 


(1) 总 的 IO 量 比 以 前 大 大 减少 。 
(2) 此 算法 可 以 脱离 MapReduce 而 对 数据 做 Cube 计算 ， 故 可 以 很 容易 地 在 其 他 场景 或 框 
架 下 执行 ， 例 如 Streaming 和 Spark, 


Fast Cubing 的 缺点 : 


(1) 代码 比 以 前 复杂 了 很 多 。 由 于 要 做 多 层 的 聚合 ， 并 且 引 入 多 线程 机 制 ， 同 时 还 要 估算 
JVM 可 用 内 存 ， 当 内 存 不 足 时 需要 将 数据 暂 存 到 磁盘 ， 所 有 这 些 都 增加 复杂 度 。 

(2) 对 Hadoop 资源 要 求 较 高 ， 用 户 应 尽 可 能 在 Маррег 上 多 分 配 内 存 ; 如 果 内 存 很 小 ， 该 
算法 需要 频繁 借助 磁盘 ， 性 能 优势 就 会 较 弱 。 在 极端 情况 下 〈 如 数据 量 很 大 同时 维度 很 多 ) ， 任 
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务 可 能 会 由 于 超时 等 原因 失败 。 

在 我 们 的 实践 中 ， 如 果 对 Mapper 内 存 和 CPU 设置 不 合理 ，Fast Cubing 算法 并 不 会 获取 很 
高 的 效率 ， 甚 至 效率 会 低 于 Layered Cubing 算法 。 所 以 我 们 需要 了 解 如 何 更 好 地 获取 Fast 
Cubing 算法 的 优势 。 


20 „3 获取 Fast Cubing 算法 的 优势 


首先 ， 在 Kylin 1.5 版 本 里 ，Kylin 在 对 Fast Cubing 请 求 资源 时 ， 默 认 是 为 Mapper 任务 请 求 
3072MB 的 内 存 (mapreduce.map.memory.mb 默认 设置 为 3072MB) ,给 JVM 配置 2700MB 内 存 
(mapreduce.map.java.opts 默认 设置 为 -Xmx2700m) 。 如 果 Hadoop 节点 可 用 内 存 较 多 的 话 ， 可 
以 适当 增 大 上 面 的 值 ， 这 样 可 以 使 Kylin 获得 更 多 内 存 用 于 Mapper 过 程 中 的 计算 ， 提 升 性 能 。 
上 面 的 两 个 参数 都 可 以 在 conf/kylin_ job_conf inmem.xml 文件 中 找到 并 进行 配置 。 

其 次 ， 需 要 在 并 发 性 和 Mapper 端 聚合 之 间 找 到 一 个 平衡 。 在 Kylin 1.5.2 版 本 里 ，Kylin $ 
认 是 给 每 个 Mapper 分 配 32MB (默认 dfs.block.size 设置 为 33554432， 即 32MB) 的 数据 ， 这 样 
可 以 获得 较 高 的 并 发 性 。 但 如 果 Hadoop 集群 规模 较 小 ， 或 可 用 资源 较 少 ， 过 多 的 Mapper 会 造 
成 任务 排队 。 这 时 ， 将 数据 块 切 得 更 大 ， 如 64 兆 ， 效 果 会 更 好 。 数 据 块 是 由 Kylin 创建 Hive Ж 
时 生成 的 ， 在 kylin_hive_conf.xml 由 参数 dfs.block.size 决定 的 。 

从 Kylin 1.5.3 版 本 开始 ， 我 们 可 以 发 现在 kylin_hive_conf.xml 找 不 到 dfs.block.size 这 个 参数 
配置 了 ， 其 实 是 因为 mapper 的 分 配 策 略 又 有 改进 。 从 这 个 版 本 开始 ，Kylin 给 每 个 mapper 会 分 
配 一 样 的 行 数 ， 从 而 避免 数据 块 不 均匀 时 的 木 桶 效应 。 由 confkylin.properteis 里 的 
“kylinjob.mapreduce.mapper.input.rows” 配 置 ， 默认 是 100 万 ， 用 户 可 以 使 自己 集群 的 规模 设置 
更 小 值 获得 更 高 并 发 ， 或 更 大 值 减少 请 求 的 Mapper 数 。 

通常 推荐 Fast Cubing 算法 ， 但 不 是 所 有 情况 下 都 如 此 。 

举例 说 明 ， 如 果 每 个 Mapper 之 间 的 key 交叉 重合 度 较 低 ，Fast Cubing 更 适合 ; 因为 
Mapper 端 将 这 块 数据 最 终 要 计算 的 结果 都 达到 了 ，Reducer 只 需 少 量 的 聚合 。 另 一 个 极端 是 ， 每 
个 Mapper 计算 出 的 key 跟 其 他 Mapper 算出 的 key 深度 重合 ， 这 意味 着 在 reducer 端 仍 需 将 各 个 
Mapper 的 数据 抓 取 来 再 次 聚合 计算 ， 如 果 key 的 数量 巨大 ， 该 过 程 IO 开销 依然 显著 。 对 于 这 种 
情况 ，Layered Cubing 算法 更 适合 。 

Kylin 在 这 方面 做 得 比较 好 的 地 方 是 ， 用 户 不 需要 自己 去 判断 使 用 哪 种 算法 ，Kylin 会 自动 
帮 我 们 选择 合适 的 算法 。 

那么 Kylin 是 如 何 做 到 的 呢 ? 

其 实 Kylin 在 计算 Cube 之 前 对 数据 进行 采样 ， 在 “ Fact Distinct ”步骤 中 ， 利 用 
HyperLogLog 模拟 去 重 ， 估 算 每 种 组 合 有 多 少 不 同 的 key， 从 而 计算 出 每 个 Mapper 输出 的 数据 
大 小 ， 以 及 所 有 Mapper 之 间 数 据 的 重合 率 ， 据 此 来 决定 采用 哪 种 算法 更 优 。 在 对 上 百 个 Cube 
任务 的 时 间 做 统计 分 析 后 ，Kylin 默认 的 算法 选择 阀 值 为 8 (参数 
kylin.cube.algorithm.auto.threshold) 。 如 果 各 个 Mapper 的 小 Cube 的 行 数 之 和 ， 大 于 reduce 后 的 
Cube 行 数 的 8 倍 ， 采 用 Layered Cubing; 反之 采用 Fast Cubing。 如 果 用 户 在 使 用 过 程 中 ， 更 倾 
向 于 使 用 Fast Cubing， 可 以 适当 调 大 此 参数 值 ， 反 之 调 小 。 
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< 大 数据 


正 值 本 书 截稿 时 ，Kyligence 公司 发 布 КАР 大 数据 分 析 平 台 ， 在 面 对 超 过 百 亿 甚 至 千 亿 规模 
的 数据 时 ， 能 够 在 短 时 间 内 用 其 熟悉 的 数据 分 析 工 具 轻 松 、 快 速 地 在 海量 数据 中 获取 分 析 结 
果 。 为 了 本 书 内容 的 完整 性 ， 更 重要 的 是 让 朋友 们 了 解 更 多 关于 Kylin 的 最 新 发 展 动态 ， 我 们 最 
后 一 个 章节 将 补充 这 部 分 内 容 。 





大 数据 智能 分 析 平台 KAP 概述 


大 数据 智能 分 析 科 技 公 司 Kyligence 于 2016 年 8 月 3 日 ， 在 北京 宣布 正式 发 布 其 企业 级 大 
数据 智能 分 析 平 台 КАР (Kyligence Analytics Platform) ， 该 平台 是 基于 Apache 软件 基金 会 顶级 
项 目 Apache Kylin 实现 的 、 为 可 伸缩 数据 集 提 供 分 析 能 力 的 企业 级 大 数据 产品 ， 在 Apache 
Hadoop 上 为 百 亿 及 以 上 超大 规模 数据 集 提 供 亚 秒 级 标准 SQL 查询 能 力 。 这 是 由 Apache Kylin 核 
心 团队 组 建 的 创业 公司 发 布 的 第 一 款 Apache Kylin 商业 产品 及 解决 方案 。 该 企业 级 产品 与 开源 
Apache Kylin 完全 兼容 ， 用 户 可 以 无 颖 迁移 到 该 平台 上 ， 以 获得 更 多 的 企业 级 特性 ， 包 括 更 高 效 
的 性 能 ， 加 强 的 用 户 管理 ， 安 全 及 加 密 ， 可 视 化 分 析 前 端 ， 管 理 与 服务 自动 化 等 。 

KAP 平台 的 特点 是 : 

1. 亚 秒 级 查询 

在 百 亿 及 以 上 规模 数据 集 上 为 业务 用 户 及 分 析 师 提供 亚 秒 级 的 查询 速度 ， 并 同时 支持 高 并 
发 ， 使 得 在 大 数据 平台 上 对 超大 规模 数据 进行 交互 式 分 析 成 为 可 能 ;支持 ANSI SQL 查询 标 
准 ， 使 得 业务 用 户 及 分 析 师 无 须 重新 学 习 新 的 技术 即 可 掌握 在 海量 超大 规模 数据 集 上 快速 分 析 
的 能 

2. 无 颖 集成 

支持 与 企业 级 商业 管 能 (BD 及 可 视 化 工具 无 颖 集成 ， 提 供 标准 的 ODBC, JDBC 驱动 及 
REST АРІ 接口 等 以 连接 流行 的 数据 分 析 、 展 示 工 具 ， 如 Tableau, Microsoft PowerBI, Microsoft 
Excel. Apache Zeppelin、Saiku 等 。 
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3. 自助 服务 

Kyligence 大 数据 分 析 平 台 使 得 分 析 师 及 用 户 能 以 简洁 而 快速 的 方式 分 析 海 量 数据 ， 易 于 使 
用 的 Web 界面 允许 用 户 自 己 构建 数据 集 市 而 无 须知 晓 底 层 技术 。 

4. 可 扩展 架构 

全 新 设计 的 可 扩展 架构 从 根本 上 解 夭 了 对 特定 技术 的 依赖 ， 将 计算 框架 ， 数 据 源 以 及 底层 
存储 等 扩展 到 更 多 的 技术 领域 ， 为 不 同 的 技术 栈 提 供 可 配置 的 优化 解决 方案 。 

5. 非 侵入 式 


Kyligence 大 数据 分 析 平 台 的 部 署 不 需要 在 现 有 Hadoop 集群 上 安装 任何 新 的 组 件 ， 更 不 需 
要 在 数据 节点 或 其 他 节点 上 安装 Agent 等 ， 所 有 与 集群 的 操作 都 通过 标准 API 完成 ， 从 而 使 得 
对 现 有 集群 的 影响 最 小 化 ， 也 为 快速 部 署 带 来 了 可 能 。 

目前 ， 朋 友 们 如 果 想 获取 KAP 的 安装 包 ， 可 以 通过 访问 Kyligence 的 官网 网 址 : 
http://kyligence.io/kyligence-analytics-platform/， 并 填写 相关 的 信息 即 可 申请 下 载 ， 如 图 21-1 所 
不 。 


> Kyligence 首页 下 载 博客 合作 伙伴 认证 培训 加 入 我 们 联系 我 们 ENGLISH 


联系 下 载 


请 填写 您 的 联系 信息 ， 我 们 将 把 KAP 安 装 包 下 载 链接 发 送 到 您 的 邮箱 ， 谢 谢 : 


姓名 














21-1 


一 般 1-2 天 就 可 以 从 注册 的 邮箱 中 获取 到 安装 包 。 目 前 与 Apache Kylin 开源 版 本 保持 一 
致 ， 针 对 不 同 的 环境 ， 也 提供 三 个 安装 包 供 选 择 : 
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kylin-kap-2.0-beta-cdh5.7-bin.tar.gz 
kylin-kap-2.0-beta-hbase0.98-bin.tar.gz 
kylin-kap-2.0-beta-hbasel.x-bin.tar.gz 


KAP 的 安装 部 署 


KAP 的 安装 过 程 这 里 就 不 再 重复 了 ， 与 Apache Kylin 安装 过 程 一 样 。 因 为 KAP 与 Apache 
Kylin 兼容 ， 这 里 和 Apache Kylin1.5.3 版 本 使 用 同一 套 HBase 环境 的 元 数据 进行 安装 部 署 。 
启动 KAP， 登 录 页 面 如 图 21-2 所 示 。 


select language: [english v 














图 21-2 


默认 用 户 名 和 密码 为 ADMIN/KYLIN， 界 面 右上 角 提供 了 中 英文 切换 。 
登录 后 可 以 查看 之 前 的 工程 、 模 型 和 Cube 信息 ， 完 全 和 开源 版 本 的 Kylin 兼容 ， 如 图 21-3 
所 示 。 
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Kyligence Analytics Platform eum 











图 21-3 


KAP 提供 完全 的 中 英文 操作 界面 ， 用 户 可 以 根据 需要 进行 灵活 切换 。 
此 外 KAP 也 调整 了 一 些 查 看 数据 源 、 模 型 和 Cube 等 的 布局 方式 ， 如 图 21-4 所 示 。 








图 21-4 
增加 了 用 户 权 限 方面 的 管理 和 控制 ， 如 图 21-5 所 示 。 


Kyligence Analytics Platform mam~- 





F 用 名- PAS BUR ANARE 
РА = 





0009 





图 21-5 


可 以 创建 新 用 户 ， 并 赋予 不 同 的 权限 ， 包 括 管理 人 员 、 建 模 人 员 和 分 析 人 员 的 权限 。 

这 个 功能 极 大 地 满足 了 企业 大 数据 部 门 不 同 项 目的 用 户 权限 隔离 性 的 要 求 。 

КАР 大 数据 分 析 平 台 就 介绍 到 此 ， 感 兴趣 的 朋友 们 可 以 多 去 研究 。 与 此 同时 ， 本 书 也 接近 
尾声 了 ， 对 朋友 们 来 说 ， 实 战 Kylin 并 应 用 到 企业 中 才刚 刚 开 始 。 最 后 ， 我 非常 感谢 朋友 们 能 够 
抽出 宝贵 的 时 间 坚 持 读 完 此 书 ， 希 望 朋 友 们 能 获得 想 要 的 知识 ， 更 希望 朋友 们 在 大 数据 道路 上 
越 走 越 宽 。 
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